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PREFACE 


科技 的 不 断 进步 必然 会 为 社会 的 发 展 带 来 变革 , 随 着 计算 机 技术 水 平 的 不 断 提 高 ,社会 
也 由 以 往 的 工业 时 代步 入 信息 时 代 。 特 别 是 最 近 几 年 ,人 类 正 从 互联 网 时 代 逐 步 走向 人 工 
智能 时 代 ,简单 的 数据 信息 处 理 和 现 有 的 计算 机 应 用 已 经 难以 满足 当前 全 球 数据 信息 爆炸 
式 的 增长 和 复杂 化 智能 化 的 需求 与 应 用 , 亚 须 新 的 科学 技术 促进 互联 网 产业 的 深度 优化 改 
革 与 发 展 。 而 且 , 信 息 科 技 行业 的 发 展 重心 已 经 转变 ,全 球 各 大 IT 公司 也 都 将 云 计算 、 大 
数据 .人工 智能 及 信息 安全 等 作为 日 后 发 展 的 主要 目标 。 由 此 可 见 , 云 计算 ,大 数据 的 发 展 
必然 会 影响 整个 国家 的 信息 产业 的 发 展 , 也 是 在 如 今 瞬息 万 变 的 全 球 经 济 下 夺 得 一 席 之 位 
的 有 力 手段 。 所 以 ,对 云 计 算 与 大 数据 技术 的 学 习 与 研究 ,对 于 我 国 的 科技 信息 产业 发 展 和 
应 用 具有 非常 重要 的 现实 意义 。 

由 林 伟 伟 与 彭 绍 亮 编 著 的 4 云 计算 与 大 数据 技术 理论 及 应 用 》, 正 适应 了 我 国 云 计算 ,大 
数据 的 研究 .开发 .应 用 与 教育 之 需 。 与 现 有 的 大 多 数 教材 和 图 书 以 阐述 技术 原理 为 主 不 
同 ,为 了 更 好 地 帮助 读者 深入 理解 云 计 算 、 大 数据 的 技术 原理 和 应 用 研发 方法 ,本 书 以 应 用 
需求 为 背景 剖析 这 些 技术 的 原理 和 应 用 方法 。 书 中 使 用 了 作者 在 云 计算 与 大 数据 相关 研究 
和 项 目 开 发 实践 中 总 结 的 大 量 编程 实例 和 实际 应 用 开发 案例 ,从 理论 上 剖析 技术 原理 本 质 ， 
从 实践 上 解析 技术 应 用 方法 。 本 书 主要 内 容 包括 : 分 布 式 计算 的 基础 和 编程 技术 ,Google 
云 ` 亚马逊 云 及 阿里 云 , 云 存储 技术 ,大 数据 基础 平台 Hadoop, Spark, Cassandra, Redis 和 
MongoDB 等 ,大 数据 分 析 计 算 平台 HDP、Impala、HadoopDB; 并 从 技术 应 用 开发 实践 方 
面 ,给 出 大 量 编程 实例 和 应 用 开发 案例 ,具体 包括 客户 服务 器 程序 、.P2P 程序 \ 云 资源 分 配 与 
能 耗 优 化 算法 、 云 计算 任务 调度 算法 、3 个 大 数据 分 析 计算 应 用 案例 及 3 个 生物 医药 大 数据 
计算 案例 。 

林 伟 伟 博士 是 华南 理工 大 学 计算 机 科学 与 工程 学 院 的 教授 和 博士 生 导师 ,主要 从 事 分 
布 式 计 算 `. 云 计算 与 大 数据 的 研究 , 彭 绍 亮 教授 是 长 沙 国家 超 算 中 心 副 主任 ,主要 从 事 生物 
医药 大 数据 研究 。 本 书 是 作者 十 余年 从 事 教 学 与 科研 工作 的 结晶 ,是 目前 国内 该 领域 内 容 
涵盖 较为 全 面 的 教材 , 它 的 出 版 必 将 对 进一步 推动 我 国 云 计算 与 大 数据 技术 的 发 展 与 应 用 
推广 产生 非常 积极 的 影响 。 
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背景 与 内 容 规划 

随 着 云 计算 与 大 数据 应 用 的 快速 增长 , 云 计算 与 大 数据 技术 已 逐步 成 为 当前 及 未 来 信 
息 处 理 的 基础 性 技术 。 因 此 ,在 该 领域 急需 大 量 的 相关 人 才 与 研发 人 员 ,本 书 正 是 为 了 适应 
这 一 新 的 发 展 趋势 和 需求 而 编写 的 。 与 现 有 的 教材 和 图 书 主要 以 阐述 技术 原理 不 同 , 为 了 
更 好 地 帮助 读者 深入 理解 技术 原理 和 应 用 研发 方法 ,本 教材 以 应 用 需求 为 背景 剖析 这 些 技 
术 的 原理 和 应 用 方法 ,使 用 了 我 们 在 云 计算 与 大 数据 相关 研究 和 项 目 开 发 实践 中 总 结 的 大 
量 编程 实例 和 实际 应 用 开发 案例 ,从 理论 上 前 析 技 术 原 理 本 质 和 从 实践 上 解析 技术 应 用 方 
法 。 本 书 主要 内 容 涉及 传统 分 布 式 计算 的 基本 原理 、 基 本 开发 技术 与 方法 , 云 计算 的 技术 原 
理 与 编程 技术 , 云 存储 技术 ,大 数据 技术 原理 与 平台 架构 、 应 用 开发 技术 与 应 用 案例 。 本 书 
可 为 计算 机 相关 专业 的 本 科 生 、 研 究 生 和 专业 技术 人 员 提 供 丰富 、 全 面 的 分 布 式 计算 、 云 计算 、 
大 数据 技术 的 知识 体系 和 研发 实践 技术 ,也 能 使 相关 专业 科研 人 员 进 一 步 从 事 相关 研究 打下 
良好 基础 ,并 对 云 计 算 、 大 数据 等 新 技术 的 研究 与 应 用 起 到 较 好 的 推动 作用 。 

本 书 主要 内 容 包 括 : 分 布 式 计算 范 型 技术 原理 与 编程 技术 ,Google 云 . 亚马逊 云 及 阿 
里 云 技术 原理 , 云 存 储 技术 , Hadoop 和 Spark 技术 原理 与 平台 。 本 书 从 技术 应 用 开发 实践 
方面 给 出 大 量 编程 实例 和 应 用 开发 案例 ,具体 包括 客户 /服务 器 程序 开发 .P2P 应 用 程序 开 
发 . 云 计算 任务 调度 算法 、 云 计算 能 耗 优化 资源 调度 算法 、3 个 大 数据 分 析 计算 应 用 案例 和 3 
个 生物 医药 大 数据 计算 案例 。 全 书 共 分 12 章 ,各 章 之 间 的 层次 关系 如 下 : 


云 计算 与 大 数据 技术 理论 及 应 用 
I 
I I 1 
分 布 式 计算 基础 云 计算 原理 与 实践 大 数据 技术 原理 与 应 有 
I l I I I I I 1 
第 第 第 第 第 第 || 第 || 第 || 第 | 第 | 第 || 第 
1 2 3 4 5 6||7|I|s| 9 10 | 12 
章 章 章 章 章 章 || 章 || 章 || 章 章 || 章 || 章 
绪 分 云 E 云 A || 实 || 保 || 基 于 || SET | HET | | 基于 
论 布 计 计 存 数 || 时 || 险 || Spark||Hadoop|| 细 胞 | | Spark 
式 算 算 储 据 || 医 || 大 WWE | 反应 | | 的 海 
it 原 编 | | 技 t || 疗 || 数 || 算法 | 基因 || 大 数 | | OE 
算 理 程 术 A || 大 || || 的 网 | 组 序 || 据 的 | | 基因 
编 与 实 原 |) Bic || 分 || 络 流 || 列 比 上 生物 | | 组 聚 
程 技 践 理 || 据 || 析 异 || 对 计 || 效 应 | | 类 问 
基 术 与 || 分 || 案 || 常 检 || 算 | 评估 | | 题 分 
础 平 || 析 || 例 || 测 计算 | | 析 计 
台 || 案 
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教学 资源 与 使 用 方法 

本 书 配套 了 PPT 课件 和 课 后 习题 参考 答案 ,使 用 本 书 进行 教学 的 教师 可 以 到 清华 大 学 
出 版 社 网 站 www. tup. tsinghua. edu. cn 申请 ,或 发 送 邮 件 至 linww@scut. edu. cn 或 lin_w 
_w@ qq. com 向 作者 索取 本 书 相关 教学 资源 。 

本 书 可 以 作为 计算 机 相关 专业 的 本 科 高 年 级 学 生 和 研究 生 的 教材 ,学 生 最 好 在 学 习 过 
操作 系统 、 计 算 机 网 络 、 面 向 对 象 编程 语言 之 后 学 习 本 课程 。 全 书 内 容 可 根据 不 同 的 教学 目 
的 和 对 象 进行 选择 。 但 根据 本 书 的 定位 ,建议 每 章 讲 授 最 低 学 时 分 配 如 下 : 


章 名 建议 重点 讲授 章节 建议 学 时 
第 1 章 所 有 小 节 2 
第 2 章 所 有 小 节 8 
第 3 章 所 有 小 节 6 
第 4 章 4.1,4.3,4.4,4.6 节 8 
第 5 章 5.1,5.2 节 4 
第 6 章 6.2.1,6.2.2,6.3,6.4,6.5 节 10 
第 7 章 所 有 小 节 3 
第 8 章 所 有 小 节 4 
第 9 章 所 有 小 节 2 
第 10 章 所 有 小 节 2 
第 11 章 所 有 小 节 2 
第 12 章 所 有 小 节 2 


此 外 ,本 书 的 教学 应 该 有 相应 的 实验 教学 内 容 ,建议 实 验 课程 的 学 时 数 不 少 于 理论 课程 
学 时 数 的 三 分 之 一 。 
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本 章 首先 介绍 分 布 式 计算 的 定义 、 优 缺点 和 经 典 的 分 布 式 计 算 项 目 等 ,然后 概述 分 布 式 
计算 的 相关 模式 ,包括 单机 计算 .并 行 计算 、 网 络 计算 、 对 等 计算 、 网 格 计 算 、 云 计算 、 雾 计算 、 
边缘 计算 和 大 数据 计算 ,最 后 重点 对 CAP 定理 进行 了 详细 介绍 和 讨论 。 本 音 讨 论 的 分 布 式 
计算 相关 概念 为 后 续 音 节 内 容 的 理解 打下 基础 。 


1.1 分 布 式 计算 概念 


1.1.1 定义 


分 布 式 计算 是 一 门 计算 机 科学 ,主要 研究 对 象 是 分 布 式 系统 。 在 介绍 分 布 式 计算 概念 
前 ,首先 简单 了 解 什么 是 分 布 式 系统 。 简 单 地 说 ,一 个 分 布 式 系统 是 由 若干 通过 网 络 互联 的 
计算 机 组 成 的 软 硬 件 系 统 , 且 这 些 计 算 机 互相 配合 以 完成 一 个 共同 的 目标 (往往 这 个 共同 的 
目标 称 为 “项 目 ”)。 分 布 式 计算 的 一 种 简单 定义 是 ,在 分 布 式 系统 上 执行 的 计算 。 

更 为 正式 的 定义 为 ,分 布 式 计算 是 一 门 计 算 机 科学 , 它 研究 如 何 把 一 个 需要 非常 巨大 的 
计算 能 力 才 能 解决 的 问题 分 成 许多 小 的 部 分 ,然后 把 这 些小 的 部 分 分 配给 许多 计算 机 进行 
处 理 ,最 后 把 各 部 分 的 计算 结果 合并 起 来 得 到 最 终 的 结果 。 本 质 上 ,分布 式 计算 是 一 种 基于 
网 络 的 分 而 治之 的 计算 方式 。 


1.1.2. 优 缺 点 


在 WWW 出 现 之 前 ,单机 计算 是 计算 的 主要 形式 。 自 20 世纪 80 年 代 以 来 ,由 于 受 
WWW 流行 的 刺激 ,分 布 式 计算 得 到 飞速 发 展 。 分 布 式 计 算 可 以 有 效 利 用 全 世界 联网 机 器 
的 闲置 处 理 能 力 , 帮 助 一 些 缺 乏 研 究 资金 的 ` 公 益 性 质 的 科学 研究 ,加 速 人 类 的 科学 进程 。 
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下 面 详细 介绍 分 布 式 计算 的 优点 : 

D 高 性 价 比 。 分 布 式 计算 往往 可 以 采用 价格 低廉 的 计算 机 。 今 天 的 个 人 计算 机 比 早 
期 的 大 型 计算 机 具有 更 出 众 的 计算 能 力 , 体 积 和 价格 不 断 下 降 。 再 加 上 Internet 连接 越 来 
越 普及 且 价 格 低廉 ,大 量 互 连 计算 机 为 分 布 式 计算 创建 了 一 个 理想 环境 。 因 此 ,分 布 式 计算 
相对 传统 的 小 型 机 和 大 型 机 等 计算 具有 更 好 的 性 价 比 。 

2) 资源 共享 。 分 布 式 计算 体系 反映 了 计算 结构 的 现代 组 织 形式 。 每 个 组 织 在 面向 网 
络 提供 共享 资源 的 同时 ,独立 维护 本 地 组 织 内 的 计算 机 和 资源 。 采 用 分 布 式 计算 ,组 织 可 以 
非常 有 效 地 汇集 资源 。 

3) 可 伸缩 性 。 在 单机 计算 中 ,可 用 资源 受 限 于 单 台 计算 机 的 能 力 。 相 比 而 言 , 分 布 式 
计算 有 良好 的 伸缩 性 ,对 资源 需求 的 增加 可 通过 提供 额外 资源 有 效 解决 。 例 如 ,将 更 多 支持 
电子 邮件 等 类 似 服务 的 计算 机 增加 到 网 络 中 ,可 满足 对 这 类 服务 需求 增长 的 需要 。 

4) 容错 性 。 由 于 可 以 通过 资源 复制 维持 故障 情形 下 的 资源 可 用 性 ,与 单机 计算 相 比 ， 
分 布 式 计算 提供 了 容错 功能 。 例 如 ,可 将 数据 库 备 份 复制 维护 到 网 络 的 不 同系 统 上 ,以 便 在 
一 个 系统 出 现 故 障 时 ,还 有 其 他 备份 可 以 访问 ,避免 服务 瘫 次。 尽管 不 可 能 构建 一 个 能 在 故 
障 面前 提供 完全 可 靠 服务 的 分 布 式 系统 ,但 在 涉及 和 实现 系统 时 最 大 化 系统 的 容错 能 力 , 是 
开发 者 的 职责 。 

然而 无 论 何 种 形式 的 计算 ,都 有 其 利 与 弊 的 权衡 。 分 布 式 计算 发 展 至 今 ,仍然 有 很 多 需 
要 解决 的 问题 。 分 布 式 计算 最 主要 的 缺点 有 : 

D 多 点 故障 。 分 布 式 计算 存在 多 点 故障 情形 。 由 于 设计 多 个 计算 机 , 且 都 依赖 于 网 络 
通信 ,因此 一 台 或 多 台 计算 机 的 故障 ,或 一 条 或 多 条 网 络 链 路 的 故障 ,都 会 导致 分 布 式 系 统 
出 现 问题 。 

2) 安全 性 低 。 分 布 式 系统 为 非 授权 用 户 的 攻击 提供 了 更 多 机 会 。 在 集中 式 系统 中 ,所 
有 计算 机 和 资源 通常 都 只 受 一 个 管理 者 控制 ,而 分 布 式 系统 的 非 集中 式 管理 机 制 包括 许多 
独立 组 织 。 分 散 式 管理 使 安全 策略 的 实现 和 增强 变 得 更 为 困难 ; 因此 ,分 布 式 计算 在 安全 
攻击 和 非 授权 访问 防护 方面 较为 脆弱 ,并 可 能 会 非常 不 幸 地 影响 到 系统 内 的 所 有 参与 者 。 


1.1.3 经 典 的 分 布 式 计算 项 目 


1. WWW 

WWW 是 到 目前 为 止 最 大 的 一 个 分 布 式 系 统 , WWW 是 环球 信息 网 (World Wide 
Web) 的 缩写 ,中 文 名 字 为 “万 维 网 ”“ 环 球 网 ”等 , 常 简称 为 Web。 它 是 一 个 由 许多 互相 链 
接 的 超 文 本 组 成 的 系统 ,通过 互联 网 访问 。 在 这 个 系统 中 ,每 个 有 用 的 事物 , 称 为 一 个 “ 资 
源 ”; 并 且 由 一 个 全 局 “统一 资源 标识 符 ”(URI) 标 识 ; 这 些 资 源 通 过 超 文本 传输 协议 
(Hypertext Transfer Protocol, HTTP) 传 送 给 用 户 , 而 后 者 通过 单 击 链接 获得 资源 。 万 维 
网 并 不 等 同 互联 网 ,万 维 网 只 是 互联 网 所 能 提供 的 服务 之 一 ,是 靠 着 互联 网 运行 的 一 项 
服务 。 

WWW 是 建立 在 客户 机 /服务 器 模型 之 上 的 。WWW 是 以 超 文本 标注 语言 (标准 通用 
标记 语言 下 的 一 个 应 用 ) 与 超 文本 传输 协议 为 基础 的 ,能 够 提供 面向 Internet 服务 的 一致 
的 用 户 界 面 的 信息 浏览 系统 。 其 中 ,WWW 服务 器 采用 超 文本 链 路 链接 信息 页 ,这 些 信息 
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页 既 可 放置 在 同一 主机 上 ,也 可 放置 在 不 同 地 理 位 置 的 主机 上 ;， 而 链 路 由 统一 资源 定位 器 
(URL) 维 持 ,WWW 客户 端 软件 ( 即 WWW 浏览 器 ) 负 责 信 息 显示 与 向 服务 器 发 送 请 求 。 

2. SETI@home 

SETI@home(Search for Extra Terrestrial Intelligence at Home, 寻 找 外 星人 ) ,是 一 个 
利用 全 球 联网 的 计算 机 共同 搜寻 地 外 文明 的 项 目 , 本 质 上 它 是 一 个 由 互联 网 上 的 多 个 计算 
机 组 成 的 处 理 天 文 数据 的 分 布 式 计算 系统 。SETIQ@home 是 由 美国 加 州 大 学 伯克利 分 校 的 
空间 科学 实验 室 开 发 的 一 个 项 目 , 它 试图 通过 分 析 阿 雷 西 博 射电 望远镜 采集 的 无 线 电 信号， 
搜寻 能 够 证 实地 外 智能 生物 存在 的 证 据 , 该 项 目 参 考 网 站 为 http://setiathome. berkeley. 
edu/index. php。 

SETIG home 是 目前 因特网 上 参加 入 数 最 多 的 分 布 式 计算 项 目 。SETI@ home 程序 在 
用 户 的 个 人 计算 机 上 ,通常 在 屏幕 保护 模式 下 或 后 台 模 式 运行 。 它 利用 的 是 多 余 的 处 理 器 
资源 ,不 影响 用 户 正常 使 用 计算 机 。SETI@home JHA A 1999 年 5 月 17 日 开始 正式 运行 。 
至 2004 年 5 月 ,累积 进行 了 近 5X LO 次 浮 点 和 运算, 处理 了 超过 13 亿 个 数据 单元 。 截 至 
2005 年 关闭 之 前 ,已 经 吸引 了 543 万 用 户 , 这 些 用 户 的 计算 机 累积 工作 243 万 年 ,分 析 了 大 
量 积压 数据 ,但 是 项 目 没有 发 现 外 星 文明 的 直接 证 据 。SETIQ@home 是 迄今 为 止 最 成 功 的 
分 布 式 计算 试验 项 目 。 

3. BOINC 

BOINC( Berkeley Open Infrastructure for Network Computing. ,伯克利 开放 式 网 络 计 
算 平 台 ) 是 美国 加 利 福 尼 亚 大 学 伯克利 分 校 于 2003 年 开发 的 一 个 利用 互联 网 计算 机 资源 进 
行 分 布 式 计算 的 软件 平台 。BOINC 最 早 是 为 了 支持 SETIG home 项 目 而 开发 的 ,之 后 逐渐 
成 了 最 为 主流 的 分 布 式 计算 平台 ,为 众多 的 数学 、 物 理学 、 化 学 生命 科学 、 地 球 科学 等 学 科 
的 项 目 所 使 用 。 如 图 1-1 所 示 ,BOINC 平台 采用 了 传统 的 客户 端 /服务 端 构 架 ; 服务 端 部 署 
于 计算 项 目 方 的 服务 器 ,服务 端 一 般 由 数据 库 服 务 器 、 数 据 服务 器 、 调 度 服务 器 和 WEB 门 
户 组 成 ; 客户 端 部 署 于 志愿 者 的 计算 机 ,一 般 由 分 布 在 网 络 上 的 多 个 用 户 计 算 机 组 成 ,负责 
完成 服务 端 分 发 的 计算 任务 。 客 户 端 与 服务 端 之 间 通 过 标准 的 互联 网 协议 进行 通信 ,实现 
分 布 式 计算 。 

BOINC 是 当前 最 为 流行 的 分 布 式 计算 平台 ,提供 了 统一 的 前 端 和 后 端 架 构 ,一 方面 大 
为 简化 了 分 布 式 计算 项 目的 开发 , 另 一 方面 .对 参加 分 布 式 计 算 的 志愿 者 来 说 ,参与 多 个 项 
目的 难度 也 大 为 降低 。 目 前 ,已 经 有 超过 50 个 的 分 布 式 计算 项 目 基于 BOINC 平台， 
BOINC 平台 上 的 主流 项 目 包 括 有 SETI@ home, Einstein@ Home, World Community Grid 
等 。 更 详细 的 介绍 可 参考 该 项 目 网 站 http://boinc. ssl. berkeley. edu/. 

4. 其 他 的 分 布 式 计 算 项 目 

除了 以 上 3 个 最 经 典 的 分 布 式 系统 外 ,还 有 很 多 其 他 的 分 布 式 计算 项 目 久 ,它们 通过 分 
布 式 计算 构建 分 布 式 系统 和 实现 特定 项 目 目标 。 

。 Climateprediction. net: 模拟 百年 以 来 全 球 气象 变化 ,并 计算 未 来 地 球 气象 ,以 对 付 

未 来 可 能 遭遇 的 灾变 性 天 气 。 
。 Quake-Catcher Network( 捕 震 网 ): 借 由 日 渐 普 及 的 笔记 本 计算 机 中 内 置 的 加 速度 
计 , 以 及 一 个 简易 的 小 型 USB 微机 电 强 震 仪 (传感器 ) ,创建 一 个 大 的 强 震 观测 网 。 
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图 1-1 BOINC 的 体系 结构 


可 用 于 地 震 的 实时 警报 或 防 灾 ,减灾 等 相关 的 应 用 上 。。 

World Community Grid( 世 界 社区 网 格 ) ; 帮助 查找 人 类 疾病 的 治疗 方法 ,和 改善 人 
类 生活 的 相关 公益 研究 ,包括 艾滋 病 、 瘤 症 .流感 病毒 等 疾病 及 水 资源 复 育 ,太阳 能 
技术 ,水 稻 品 种 的 研究 等 。 

Einstein@Home: 于 2005 年 (世界 物理 年 ) 开 始 的 项 目 , 旨 在 找 出 脉冲 星 的 引力 波 ， 
验证 爱 因 斯 坦 的 相对 论 预测 。 

FightAIDS@home: 研究 艾滋 病 的 生理 原理 和 相关 药物 。 

Folding@home: T fit AUT 、 聚 合 以 及 相关 疾病 。 

GIMPS: 寻找 新 的 梅森 素数 。 

Distributed, net; 成 立 于 1997 年 ,是 互联 网 的 第 一 个 通用 分 布 式 计算 项 目 。2002 年 
10 月 7 日 ,以 破解 加 密 术 著称 的 Distributed. net 宣布 ,在 经 过 全 球 33. 1 万 名 电脑 
高 手 共 同 参与 ,苦心 研究 了 1726 天 ,于 2002 年 9 A 25 日 破解 了 以 研究 加 密 算法 而 
著称 的 美国 RSA 数据 安全 实验 室 开 发 的 64 位 密 钥 一 一 RC5-64 密 钥 。 目 前 正在 进 
行 的 是 RC5-72 密 钥 。 


分 布 式 计算 模式 


随 着 互联 网 与 移动 互联 网 应 用 的 快速 发 展 ,出 现 很 多 新 的 分 布 式 计算 模式 与 范 型 ,如 云 
计算 、 雾 计算 、 大 数据 计算 等 。 这 些 新 型 计算 模式 或 新 技术 ,本 质 上 是 分 布 式 计 算 的 发 展 和 
延伸 。 与 分 布 式 计算 相关 的 计算 模式 有 很 多 ,下 面 讨论 一 下 单机 计算 、 并 行 计算 、 网 络 计 算 、 
对 等 计算 .集群 计算 、 网 格 计 算 、 云 计算 、 雾 计算 和 边缘 计算 等 ,以 便 更 好 地 区 分 和 理解 各 种 
分 布 式 计算 模式 的 概念 。 


1.2.1 单机 计算 


与 分 布 式 计算 相对 应 的 是 单机 计算 ,或 称 集中 式 计 算 。 计 算 机 不 与 任何 网 络 互 连 , 只 使 
用 本 计算 机 系统 内 可 被 即时 访问 的 所 有 资源 ,该 计算 模式 称 为 单机 计算 。 在 最 基本 的 单机 
计算 模式 中 ,一 台 计 算 机 在 任何 时 刻 只 能 被 一 个 用 户 使 用 。 用 户 在 该 系统 上 执行 应 用 程序 ， 
不 能 访问 其 他 计算 机 上 的 任何 资源 。 在 PC 上 使 用 诸如 文字 处 理 程 序 或 电子 表格 处 理 程序 
等 应 用 时 ,应 用 的 就 是 这 种 被 称 为 单 用 户 单机 计算 的 计算 模式 。 

多 用 户 也 可 参与 单机 计算 。 在 该 计算 模式 中 ,并 发 用 户 可 通过 分 时 技术 共享 单 台 计算 
机 中 的 资源 ,往往 称 这 种 计算 方式 为 集中 式 计算 。 通 常 将 提供 集中 式 资源 服务 的 计算 机 称 
为 大 型 机 (mainframe computing)。 用 户 可 通过 终端 设备 与 大 型 机 系统 相连 ,并 在 终端 会 话 


期 间 与 之 交互 。 


如 图 1-2 所 示 , 与 单机 计算 模式 不 同 ,分 布 式 计算 包括 在 通过 网 络 互 连 的 多 台 计 算 机 上 
执行 的 计算 ,每 台 计 算 机 都 有 自己 的 处 理 器 及 其 他 资源 。 用 户 可 以 通过 工作 站 完全 使 用 与 
其 互 连 的 计算 机 上 的 资源 。 此 外 ,通过 与 本 地 计算 机 及 远程 计算 机 交互 ,用 户 可 访问 远程 计 
算 机 上 的 资源 。WWW 是 该 类 计算 的 最 佳 例子 。 当 通过 浏览 器 访问 某 个 Web 站 点 时 ,一 
个 诸如 TE 的 程序 将 在 本 地 系统 运行 并 与 运行 于 远程 系统 中 的 某 个 程序 ( 即 Web 服务 器 ) 交 


互 , 从 而 获取 驻 留 于 另 一 个 远程 系统 中 的 文件 。 
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1.2.2 并 行 计算 


图 1-2 集中 式 计算 与 分 布 式 计算 


workstation 


distributed computing y | 


network link 


network host 


并 行 计算 (Parallel Computing) 或 称 并 行 运算 ,是 相对 于 串 行 计 算 的 概念 (如 图 1-3 所 
IR) ,最 早出 现 于 20 世纪 六 七 十 年 代 , 指 在 并 行 计算 机 上 所 做 的 计算 , 即 采用 多 个 处 理 器 执 
行 单个 指令 。 通 常 ,并 行 计 算是 指 同 时 使 用 多 种 计算 资源 解决 计算 问题 的 过 程 ,是 提高 计算 
机 系统 计算 速度 和 处 理 能 力 的 一 种 有 效 手段 。 它 的 基本 思想 是 用 多 个 处 理 器 协同 求解 同一 
问题 ,即将 被 求解 的 问题 分 解 成 若干 个 部 分 ,各 部 分 均 由 一 个 独立 的 处 理 机 并 行 计 算 。 
并 行 计算 可 分 为 时 间 上 的 并 行 和 空间 上 的 并 行 。 时 间 上 的 并 行 是 指 流水 线 技术 ,而 空 
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间 上 的 并 行 则 是 指 用 多 个 处 理 器 并 发 地 执行 计算 。 传 统 意义 上 的 并 行 与 分 布 式 计算 的 区 别 
是 : 分 布 式 计算 强调 的 是 任务 的 分 布 执行 ,而 并 行 计算 强调 的 是 任务 的 并 发 执行 。 特 别提 
一 下 , 随 着 互联 网 技术 的 发 展 , 越 来 越 多 应 用 利用 网 络 实 现 并 行 计算 ,这 种 基于 网 络 的 并 行 
计算 实际 上 也 属于 分 布 式 计算 的 一 种 模式 。 


1.2.3 网 络 计算 


首先 ,我们 看 一 些 * 计 算 ? 的 概念 “计算 ”这 个 词 在 不 同 的 时 代 有 不 同 的 内 涵 ,一般人 们 
都 会 想到 我 们 最 熟悉 的 数学 和 数值 计算 。 自 从 计算 机 技术 诞生 以 来 ,人 类 就 进入 了 “计算 机 
计算 的 时 代 ”。 随 着 技术 的 进一步 发 展 ,网 络 宽带 的 迅速 增长 ,人 们 开始 进入 “网 络 计算 
时 代 ”。 

网 络 计算 (Network Computing) 是 一 个 比较 宽泛 的 概念 , 随 着 计算 机 网 络 的 出 现 而 出 
现 ,并 且 随 着 网 络 技术 的 发 展 ,在 不 同 的 时 代 有 不 同 的 内 涵 。 例 如 ,有 时 网 络 计算 是 指 分 布 
式 计算 ,有 时 指 云 计算 或 其 他 新 型 计算 方式 。 总 之 ,网 络 计 算 的 核心 思想 是 指 把 通过 网 络 连 
接 起 来 的 各 种 自治 资源 和 系统 组 合 起 来 ,以 实现 资源 共享 .协同 工作 和 联合 计算 ,为 各 种 用 
户 提供 基于 网 络 的 各 类 综合 性 服务 。 网 络 计算 在 很 多 学 科 领 域 发 挥 了 巨大 作用 ,改变 了 人 
们 的 生活 方式 。 


1.2.4 对 等 计算 


对 等 计算 又 称 为 peer-to-peer 计算 ,简称 P2P 计算 。 对 等 计算 源 于 P2P 网 络 。P2P 网 
络 是 无 中 心服 务 器 ,依赖 用 户 群 交换 的 互联 网 体系 。 与 客户 -服务 器 结构 的 系统 不 同 , 在 
P2P 网 络 中 ,每 个 用 户 端 既 是 一 个 节点 ,又 有 服务 器 的 功能 ,任何 一 个 节点 无 法 直接 找到 其 
他 节点 ,必须 依靠 其 用 户 群 进行 信息 交流 。 

与 传统 的 服务 器 /客户 机 的 模式 不 同 , 对 等 计算 的 体系 结构 是 让 传统 意义 上 作为 客户 机 
的 各 个 计算 机 直接 互相 通信 ,而 这 些 计 算 机 实际 上 同时 扮演 着 服务 器 和 客户 机 的 角色 , 因 
此 ,对 等 计算 模式 可 以 有 效 地 减少 传统 服务 器 的 压力 ,使 这 些 服务 器 可 以 更 加 有 效 地 执行 其 
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专属 任务 。 例 如 ,利用 对 等 计算 模式 的 分 布 式 计 算 技术 ,有 可 能 将 网 络 上 成 千 上 万 的 计算 机 
连接 在 一 起 共同 完成 极其 复杂 的 计算 ,成 千 上 万 台 桌 面 PC 和 工作 站 集结 在 一 起 所 能 达到 
的 计算 能 力 是 非常 可 观 的 ,这 些 计算 机 所 形成 的 “虚拟 超级 计算 机 ?所 能 达到 的 运算 能 力 甚 
至 是 现 有 的 单个 大 型 超级 计算 机 所 无 法 达到 的 。 


1.2.5 集群 计算 


集群 计算 (Cluster Computing) 指 的 是 计算 机 集群 将 一 组 松散 集成 的 计算 机 软件 或 硬 
件 连接 起 来 高 度 紧密 地 协作 完成 计算 工作 。 在 某 种 意义 上 ,他们 可 以 被 看 作 是 一 台 计算 机 。 
集群 系统 中 的 单个 计算 机 通常 称 为 节点 ,通常 通过 局 域 网 连接 ,但 也 有 其 他 的 可 能 连接 方 
式 。 集 群 计算 机 通常 用 来 改进 单个 计算 机 的 计算 速度 和 /或 可 靠 性 。 一 般 情况 下 ,集群 计算 
机 比 单个 计算 机 ,例如 工作 站 或 超级 计算 机 性 价 比 要 高 得 多 。 

根据 组 成 集群 系统 的 计算 机 之 间 体 系 结构 是 否 相 同 ,集群 可 分 为 同 构 与 异 构 两 种 。 集 
群 计 算 机 按 功能 和 结构 可 以 分 为 ,高 可 用 性 集群 (High-Availability Clusters) , fi 2825) (fj fl 
TiÉCLoad Balancing Clusters) ,高 性 能 计算 集群 (High-Performance Clusters) 和 网 格 计算 
(Grid Computing)。 集 群 计算 与 网 格 计算 的 区 别 : 网 格 本 质 上 就 是 动态 的 ,资源 则 可 以 动 
态 地 出 现 ,资源 可 以 根据 需要 添加 到 网 格 中 或 从 网 格 中 删除 ,而 且 网 格 的 资源 可 以 在 本 地 
网 , 城 域 网 或 广域网 上 进行 分 布 ; 而 集群 计算 中 包含 的 处 理 器 和 资源 的 数量 通常 都 是 静 


态 的 。 
1.2.6 网 格 计算 


网 格 计算 (Grid Computing): 利用 互联 网 把 地 理 上 广泛 分 布 的 各 种 资源 (计算 、 存 储 、 
带宽 ,软件 ,数据 、 信 息 、 知 识 等 ) 连 成 一 个 逻辑 整体 ,就 像 一 台 超 级 计算 机 ,为 用 户 提 供 一 体 
化 信息 和 应 用 服务 (计算 、 存 储 、 访 问 等 )。 网 格 计算 强调 资源 共享 ,任何 节点 都 可 以 请 求 使 
用 其 他 节点 的 资源 ,任何 节点 都 需要 贡献 一 定 资源 给 其 他 节点 。 

更 具体 来 说 ,网 格 计算 是 伴随 着 互联 网 技术 而 迅速 发 展 起 来 的 ,是 将 地 理 上 分 布 的 计算 
资源 (包括 数据 库 、 贵 重 仪器 等 各 种 资源 ) 充 分 运用 起 来 ,协同 解决 复杂 的 大 规模 问题 ,特别 
是 解决 仅 靠 本 地 资源 无 法 解决 的 复杂 问题 ,是 专门 针对 复杂 科学 计算 的 新 型 计算 模式 。 如 
图 1-4 所 示 ,这 种 计算 模式 是 利用 互联 网 把 分 散在 不 同 地 理 位置 的 计算 机 组 织 成 一 个 “虚拟 
的 超级 计算 机 ”, 其 中 每 一 台 参 与 计算 的 计算 机 就 是 一 个 “节点 ”, 而 整个 计算 机 是 由 成 千 上 
万 个 “节点 "组 成 的 “一 张 网 格 ”, 所 以 这 种 计算 方式 叫 网 格 计算 。 这 样 组 织 起 来 的 “虚拟 的 超 
级 计算 机 ”有 两 个 优势 ,一 个 是 数据 处 理 能 力 超 强 , 另 一 个 是 能 充分 利用 网 上 的 闲置 处 理 能 
力 。 简 单 地 讲 ,网 格 是 把 整个 网 络 整合 成 一 台 巨 大 的 超级 计算 机 ,实现 计算 资源 .存储 资源 、 
数据 资源 、 信 息 资 源 、 知 识 资源 ,专家 资源 的 全 面 共享 。 


1.2.[7 aie 


云 计 算 (Cloud Computing) fit zz fi i h Google 公司 提出 。2006 年 ,27 岁 的 Google 高 
级 工程 师 克 里 斯 托 夫 。 比 希 利 亚 第 一 次 向 Google 董事 长 兼 CEO 埃 里 克 。 施 密 特 提出 “ 云 
计算 ”的 想法 ,在 埃 里 克 … 施 密 特 的 支持 下 ,Google 推出 了 “Google 101 计划 ”, 该 计划 目的 
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图 1-4 网 格 计算 示 意图 
是 让 高 校 的 学 生 参 与 云 的 开发 ,将 为 学 生 、 研 究 人 员 和 企业 家 们 提供 Google 式 无 限 的 计算 
处 理 能 力 ,这 是 最 早 的 “ 云 计算 ”概念 ,如 图 1-5 所 示 。 这 个 云 计 算 概 念 包含 两 个 层次 的 含 
义 ,一 是 商业 层面 , 即 以 * 云 ”的 方式 提供 服务 ,一 个 是 技术 层面 , 即 各 种 客户 端的 “计算 ”都 由 
网 络 负责 完成 。 通 过 把 云 和 计算 相 结合 ,用 来 说 明 Google 在 商业 模式 和 计算 架构 上 与 传统 
的 软件 和 硬件 公司 的 不 同 。 
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图 1-5 云 计算 概念 示意 图 


目前 ,对 于 云 计算 的 认识 在 不 断 地 发 展 变化 , 云 计算 仍 没有 普遍 一 致 的 定义 。 通 常 是 指 
由 分 布 式 计算 ,集群 计算 、 网 格 计算 、 并 行 计算 ,效用 计算 等 传统 计算 机 与 网 络 技术 融合 而 形 
成 的 一 种 商业 计算 模型 。 从 技术 上 看 , 云 计算 是 一 种 基于 互联 网 的 计算 方式 ,通过 这 种 方 
式 , 共 享 的 软 硬 件 资源 和 信息 可 以 按 需 求 提供 给 计算 机 和 其 他 设备 。 当 前 , 云 计算 的 主要 形 
式 包 括 : 基础 设施 即 服务 (IAAS) ,平台 即 服务 (PAAS) 和 软件 即 服务 (SAAS) 。 


下 到 8 分 计算 


雾 计算 (Fog Computing) 是 由 思科 公司 在 2011 年 提出 来 的 概念 。 雾 计算 是 使 用 一 个 
或 多 个 协同 众多 的 终端 用 户 或 用 户 边 缘 设 备 , 以 分 布 式 协作 架构 进行 大 量 数 据 存 储 (而 不 是 
将 数据 集中 存储 在 云 数 据 中 心 ) 、 通 信 ( 而 不 是 通过 互联 网 骨干 路 由 ) .控制 .配置 .测试 和 管 
理 的 一 种 计算 体系 结构 。 如 图 1-6 Hrs , 雾 计 算是 云 计 算 的 延伸 , 雾 是 介 于 云 计算 和 个 人 计 
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算 之 间 的 , 雾 计算 所 采用 的 架构 更 呈 分 布 式 , 更 接近 网 络 边缘 。 雾 计算 将 数据 ` 数 据 处 理 和 
应 用 程序 集中 在 网 络 边缘 的 设备 中 ,而 不 像 云 计算 那样 将 它们 几乎 全 部 保存 在 云 中 。 数 据 
的 存储 及 处 理 更 依赖 本 地 设备 ,而 非 服务 器 。 所 以 , 云 计 算是 新 一 代 的 集中 式 计算 ,而 雾 计 
算是 新 一 代 的 分 布 式 计算 ,符合 互联 网 的 “去 中 心 化 "特征 。 


Fog Computing 


1-6 和 雾 计算 概念 示意 图 


1.2.9 边缘 计算 


随 着 云 计算 、 物 联网 等 技术 应 用 的 深入 ,以 及 万 物 联 网 应 用 需求 的 发 展 ,催生 了 雾 计 算 
和 边缘 计算 等 新 的 分 布 式 计算 形式 。 边 缘 计算 (Edge Computing) 指 在 靠近 物 或 数据 源头 
的 网 络 边缘 侧 ,融合 网 络 .计算 、 存 储 、 应 用 核心 能 力 的 开放 平台 ,就近 提供 边缘 智能 服务 , 满 
足 行业 数字 化 在 敏捷 连接 .实时 业务 ,数据 优化 、 应 用 智能 ,安全 与 隐私 保护 等 方面 的 关键 需 
求 。 万 物 联网 应 用 需求 的 发 展 催生 了 边缘 式 大 数据 处 理 模 式 , 即 边缘 计算 模型 ,其 能 在 网 络 
边缘 设备 上 增加 执行 任务 计算 和 数据 分 析 的 处 理 能 力 ,将 原 有 的 云 计算 模型 的 部 分 或 全 训 
计算 任务 迁移 到 网 络 边缘 设备 上 ,降低 云 计算 中 心 的 计算 负载 ,减缓 网 络 带宽 的 压力 ,提高 
万 物 互 联 时 代数 据 的 处 理 效率 。 

边缘 计算 与 雾 计算 概念 相似 ,具体 原理 也 相似 , 即 都 是 使 计算 在 网 络 边缘 进行 的 计算 。 
如 图 1-7 所 示 ,边缘 计算 和 雾 计 算 的 关键 区 别 在 于 : @ 智 能 和 计算 发 生 的 位 置 。 雾 计算 中 
的 智能 是 发 生 在 本 地 局 域 网 络 层 , 处 理 数据 是 在 雾 节点 或 者 IoT 网 关 进 行 的 。 边 缘 计 算 则 
是 将 智能 .处 理 能 力 和 通信 能 力 都 放 在 了 边缘 网 关 或 者 直接 的 应 用 设备 中 。 四 雾 计 算 更 具 
有 层次 性 和 平坦 的 架构 ,其 中 几 个 层次 形成 网 络 ,而 边缘 计算 依赖 于 不 构成 网 络 的 单独 节 
点 。 雾 计算 在 节点 之 间 具 有 广泛 的 对 等 互 连 能 力 ,边缘 计算 在 孤岛 中 运行 其 节点 ,需要 通过 
云 实现 对 等 流量 传输 。 


1.2.10 大 数据 计算 


随 着 互联 网 与 计算 机 系统 需要 处 理 的 数量 越 来 越 大 ,大 数据 计算 成 为 一 种 非常 重要 的 
数据 分 析 处 理 模式 。 当 前 在 大 数据 计算 方面 ,主要 模式 有 : 基于 MapReduce 的 批 处 理 计 
算 、 流 式 计算 、 基 于 Spark 的 内 存 计算 。 下 面 简单 介绍 这 三 种 计算 模式 。 

1. 基于 MapReduce 的 批 处 理 计算 

批 处 理 计 算是 先 对 数据 进行 存储 ,然后 再 对 存储 的 静态 数据 进行 集中 计算 。 
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图 1-7 边缘 计算 概念 示意 图 


MapReduce 是 典型 的 大 数据 批 处 理 计 算 模式 。MapReduce 是 大 数据 分 析 处 理 方 面 最 成 功 
的 主流 计算 模式 ,被 广泛 用 于 大 数据 的 线 下 批 处 理 分 析 计 算 。MapReduce 计算 模式 的 主要 
思想 是 将 自动 分 割 要 执行 的 问题 (例如 程序 ) 拆 解 成 Map 和 Reduce 两 个 函数 操作 ,然后 对 
分 块 的 大 数据 采用 “分 而 治之 ”的 并 行 处 理 方式 分 析 计 算数 据 。MapReduce 计算 流程 图 如 
图 1-8 所 示 , 通 过 Map 函数 的 程序 将 数据 映射 成 不 同 的 分 块 ,分 配给 计算 机 机 群 处 理 达 到 
分 布 式 运 算 的 效果 ,再 通过 Reduce 函数 的 程序 将 结果 汇 整 ,从 而 输出 所 需要 的 结果 。 
MapReduce 提供 了 一 个 统一 的 并 行 计算 框架 ,把 并 行 计算 所 涉及 的 诸多 系统 层 细节 都 交 给 
计算 框架 完成 ,以 此 大 大 简化 了 程序 员 进 行 并 行 化 程序 设计 的 负担 。 
输入 Map 任 务 Reduce 任 务 输出 


数据 块 ! | 一 《Map() 
数据 块 2 | 一 = Map() 


数据 块 3 |—- Map( ) Reduce( ) 结果 
CD, 三 
数据 块 5 | (C Map() 
1-8 MapReduce 计算 流程 
2. 流 式 计 算 
大 数据 批 处 理 计算 关 注 数据 处 理 的 吞吐 量 ,而 大 数据 流 式 计算 更 关注 数据 处 理 的 实时 
性 。 如 图 1-9 所 示 , 流 式 计算 中 ,无 法 确定 数据 的 流 数据 处 理 
到 来 时 刻 和 到 来 顺序 ,也 无 法 将 全 部 数据 存储 起 _ 
来 。 因 此 ,不 再 进行 流 式 数据 的 存储 ,而 是 当 流 动 “内存 一 一 数据 流 
的 数据 到 来 后 在 内 存 中 直接 进行 数据 的 实时 计算 。 pa 
流 式 计 算 具 有 很 强 的 实时 性 ,需要 对 应 用 源源 不 断 E e a RE 
产生 的 数据 实时 进行 处 理 ,使 数据 不 积压 \ 不 丢失， 


常用 于 处 理 电信 人、 电力 等 行业 应 用 以 及 互联 网 行业 图 1-9 大 数据 流 式 计算 
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的 访问 日 志 等 。Facebook 的 Scribe, Apache 的 Flume, Twitter 的 Storm, Yahoo 的 S4, 
UCBerkeley 的 Spark Streaming 都 是 典型 的 流 式 计算 系统 。 

3. 基于 Spark 的 内 存 计算 

Spark 是 UC Berkeley AMP 实验 室 基于 Map Reduce 中 的 算法 实现 的 分 布 式 计算 框 
架 , 输 出 和 结果 保存 在 内 存 中 ,不 需要 频繁 读 写 HDFS., 数 据 处 理 效率 更 高 。 如 图 1-10 所 
示 , 由 于 MapReduce 计算 过 程 中 需要 读 写 HDFS 存储 (访问 磁盘 IO) ,而 在 Spark 内 存 计 算 
过 程 中 ,使 用 内 存 蔡 代 了 使 用 HDFS 存储 中 间 结 果 , 即 在 进行 大 数据 分 析 处 理 时 使 用 分 布 
式 内 存 计 算 , 内 存 访问 比 磁盘 快 得 多 ,因此 ,基于 Spark 的 内 存 计 算 的 数据 处 理性 能 会 提升 
很 多 ,特别 是 针对 需要 多 次 迭代 大 数据 计算 的 应 用 。 


HDFS HDFS HDFS HDFS 


read write. read write. 
æj iter.1 -H =| iter.2 -H 
Input 
HDFS query | |—- result 1 
read = 
query2 |—- result 2 
月 
query3 f—= result 3 
月 


Input 


Input 


one-time 
processing 


Input Distributed \ ii 
memory 


图 1-10 Spark 内 存 计 算 


1.8 CAP 定理 


1.3.1 CAP 定理 历史 


1985 年 ,Fischer、Lynch 和 Patterson 三 位 作者 证 明了 异步 通信 中 不 存在 任何 一 致 性 的 
分 布 式 算法 (FLP Impossibility), 即 : 在 异步 通信 场景 ,即使 只 有 一 个 进程 失败 ,也 没有 任何 
算法 能 保证 非 失败 进程 达到 一 致 性 ! 因此 ,人 们 就 开始 寻找 分 布 式 系统 设计 的 各 种 因素 。 
一 致 性 算法 虽然 不 存在 ,但 找到 一 些 设计 因素 ,并 进行 适当 的 取舍 以 最 大 限度 地 满足 系统 需 
求 ,成 为 当时 的 重要 议题 。 


云 计 算 与 大 数据 技术 理论 及 应 用 


2000 年 7 月 ,来 自 加 州 大 学 伯克利 分 校 的 Eric Brewer 在 ACM 的 分 布 式 计 算 原 则 研讨 
会 (Principles of Distributed Computing) 上 ,首次 提出 了 著名 的 CAP 猜想 。2002 年 后 ,来 
自 麻 省 理工 学 院 的 Seth Gilbert 和 Nancy Lynch, 从 理论 上 证 明了 Brewer 的 CAP 猜想 的 可 
行 性 。 从 此 ,CAP 理论 正式 在 学 术 上 成 了 分 布 式 计 算 领 域 的 公认 定理 ,并 深 深 地 影响 了 分 
布 式 计 算 的 发 展 。 

CAP 定理 是 指 对 于 一 个 分 布 式 计算 系统 ,不 可 能 同时 满足 一 致 性 .可 用 性 和 分 区 容错 
性 这 三 个 基本 需求 ,最 多 只 能 同时 满足 其 中 的 两 项 ,不 可 能 同时 满足 三 项 。 这 三 项 具体 
是 指 : 

。 一 致 性 (C) : BI Consistency, 所 有 节点 访问 同一 份 最 新 的 数据 副本 。 在 分 布 式 系统 
中 的 所 有 数据 备份 ,在 同一 时 刻 是 否 具 有 同样 的 值 。 
可 用 性 (A): 即 Availability, 对 数据 更 新 具备 高 可 用 性 。 在 集群 中 一 部 分 节点 故障 
后 ,集群 整体 还 能 响应 客户 端的 读 写 请 求 。 
分 区 容错 性 (P) : BI Partition tolerance. 当 分 布 式 系统 集群 中 的 某 些 节点 无 法 联系 
时 仍 能 正常 提供 服务 。 即 是 否 允 许 数据 的 分 区 ,分 区 的 意思 是 指 是 否 允 许 集群 中 
的 节点 之 间 无 法 通信 。 由 于 分 布 式 系统 ,分 区 容忍 性 必须 满足 ,因为 由 于 网 络 的 
不 可 靠 性 ,必定 会 导致 两 个 机 器 节点 之 间 无 法 进行 网 络 通信 ,从 而 导致 数据 无 法 


1.3.2 CAP 定理 应 用 


CAP 猜想 在 被 证 实 和 规范 化 后 ,被 正式 称 为 CAP 定理 , 极 大 地 影响 大 规模 Web 分 布 
式 系统 的 设计 。 当 CAP 定理 应 用 在 分 布 式 存储 系统 中 ,最 多 只 能 实现 上 面 的 两 点 。 而 由 于 
当前 的 网 络 硬件 肯定 会 出 现 延 迟 丢 包 等 问题 ,所 以 分 区 容错 性 是 必须 需要 实现 的 。 所 以 ,在 
设计 分 布 式 系统 时 只 能 在 一 致 性 和 可 用 性 之 间 进 行 权 衡 。 

事实 上 ,在 设计 分 布 式 应 用 系统 的 时 候 , 这 三 个 要 素 最 多 只 能 同时 实现 两 点 ,不 可 能 三 
者 兼顾 ,如 图 1-11 所 示 。 

如 果 选 择 分 区 容错 性 和 一 致 性 ,那么 即使 有 节点 出 现 故障 ,操作 必须 既 一 致 ,又 能 顺利 
完成 。 所 以 就 必须 100% 保 证 所 有 节点 之 间 有 很 好 的 连通 性 。 这 是 很 难 做 到 的 。 因 此 ,最 
好 的 办 法 就 是 将 所 有 数据 放 到 同一 个 节点 中 。 但 是 ,显然 这 种 设计 是 不 满足 可 用 性 的 ( 即 一 
且 系 统 遇 到 网 络 分 区 或 其 他 故障 时 ,受到 影响 的 服务 需要 等 待 一 定 的 时 间 ,因此 在 等 待 期 间 
系统 无 法 对 外 提供 正常 的 服务 , 即 不 可 用 )。 如 BigTable,HBase。 

如 果 要 满足 可 用 性 和 一 致 性 ,那么 为 了 保证 可 用 . 则 数据 必须 要 有 复制 (replica)。 这 
样 ,系统 显然 无 法 容忍 分 区 。 当 同一 数据 的 两 个 副本 (Replica) 分 配 到 了 两 个 无 法 通信 的 分 
区 上 时 ,显然 会 返回 错误 的 数据 。 如 关系 数据 库 。 另 一 方面 .需要 明确 的 是 ,对 于 一 个 分 布 
式 系统 ,分 区 容错 性 可 以 说 是 一 个 最 基本 的 要 求 。 因 为 既然 是 一 个 分 布 式 系统 ,那么 分 布 式 
系统 中 的 组 件 必然 需要 被 部 署 到 不 同 的 节点 。 

最 后 看 一 下 满足 可 用 性 和 分 区 容错 性 的 情况 。 满 足 可 用 ,就 说 明 数 据 必须 要 在 不 同 节 
点 中 有 复制 (replica) 。 然 而 还 必须 保证 在 产生 分 区 的 时 候 操作 仍然 可 以 完成 。 那 么 ,操作 
必然 无 法 保证 一 致 性 。 如 DynamoDB.Cassandra,SimpleDB。 


所 有 客户 端 总 是 有 
同样 的 数据 视图 


CA 
有 一 致 性 和 可 用 性 的 系 
统 ， 通 常 扩展 性 能 不 高 ， 
不 具有 分 区 容错 性 ， 如 
传统 的 关系 数据 库 


CP 
为 了 满足 一 致 性 ， 在 系统 分 区 
期 间 会 停止 服务 ， 直 到 数据 恢 
复 一 致 ， 如 BigTable，HBase 等 


可 用 性 


AP 
通常 注重 系统 性 能 和 扩展 性 ， 
而 非 强 一 致 住 ， 如 NoSQL 系 统 中 
每 个 客户 端 总 的 DynamoDB, Cassandra, SimpleDB 


个 客户 当 集群 中 的 某 此 节点 无 法 
是 能 读 写 联系 时 仍 能 正常 提供 服务 


图 1-11 CAP 定理 应 用 


1.3.3 CAP 问题 的 实例 


为 了 让 读者 更 好 地 理解 CAP 定理 的 概念 , 接 下 来 给 出 一 个 具体 的 分 布 式 应 用 的 例子 说 
明 CAP 定理 。 如 图 1-12 Bros ,假如 有 两 个 应 用 A 
和 BB 分别 运行 在 两 个 不 同 的 服务 器 NI 和 N2 E. 
A 负责 向 它 的 数据 库 ( 主 存储 器 ) 写 入 数据 ,而 B 则 
是 从 另 一 个 数据 库 副本 (备份 存储 器 ) 读 取 数 据 。 
服务 器 N1 通过 发 送 数据 更 新 消息 (Replication 
message,M) 给 服务 器 N2 实现 同步 ,以 达到 两 个 数 
据 库 之 间 的 一 致 性 。 当 客户 端 应 用 程序 调用 put(d) 
方法 更 新 数据 d 的 值 时 ,应 用 A 会 收 到 该 命令 并 将 主 存储 器 mane 
新 数据 通过 write() 方 法 写 入 它 的 数据 库 ,然后 服 112 分 布 式 系统 CAP 问题 的 实例 
务 器 NI 向 服务 器 N2 发 送 消息 以 更 新 在 另 一 个 数 
据 库 副 本 里 的 d 值 ,随后 客户 端 应 用 调用 get(d) 方 法 想 要 获取 d (HB 会 收 到 该 命令 并 调用 
read() 方 法 从 数据 库 副 本 里 读 出 d' 值 ,此 时 d' 已 经 更 新 为 新 值 .因此 ,整个 系统 看 起 来 便 是 
一 致 的 。 

假如 服务 器 N1 与 N2 之 间 的 通信 被 某 种 原因 切断 了 (网 线 断 了 ) ,如 果 想 让 系统 是 容错 
的 ,可 将 两 个 数据 库 之 间 的 消息 设 定 为 异步 消息 ,那么 系统 仍然 可 以 继续 工作 ,但 是 数据 库 
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副本 内 的 数据 便 不 会 更 新 ,随后 用 户 读 到 的 数据 便 是 已 经 过 期 的 数据 ,这 就 造成 数据 的 不 一 
致 。 即 使 将 数据 更 新 消息 设 定 为 同步 的 也 不 行 ,这 会 使 服务 器 N] 的 写 操作 和 数据 更 新 消 
息 成 为 一 个 原子 性 事务 ,一 旦 消息 无 法 发 送 ,服务 器 NT 的 写 操作 就 会 随 着 数据 更 新 消息 发 
送 失败 而 回 滚 ,系统 无 法 使 用 就 违背 了 可 用 人 性。 

CAP 定理 告诉 我 们 ,在 大 规模 的 分 布 式 系统 中 ,分 区 容错 性 是 基本 要 求 , 所 以 要 在 可 用 
性 和 一 致 性 上 有 所 权衡 。 基 于 上 例 ,可 以 选择 使 用 最 终 一 致 模型 ,数据 更 新 消息 可 以 是 异步 
发 送 的 ,但 当 服务 器 NT 在 发 送 消息 时 无 法 得 到 确认 那么 它 就 会 重新 发 送 消息 ,直到 服务 器 
N2 上 的 数据 库 副 本 与 服务 器 N1 达到 一 致 为 止 , 而 客户 端 则 需要 面临 不 一 致 的 状态 。 实 际 
上 ,如果 你 从 购物 车 中 删除 一 个 商品 记录 , 它 很 可 能 再 次 出 现在 你 的 交易 记录 里 ,但 是 显然 ， 
相对 于 较 高 的 系统 延迟 来 说 ,用 户 可 能 更 愿意 继续 他 们 的 交易 。 对 于 大 多 数 Web 应 用 , 牺 
牲 一 致 性 而 换取 高 可 用 性 是 主要 的 解决 方案 。 


习题 

一 、 选 择 题 
1. 下 列 计算 形式 不 属于 分 布 式 计算 的 是 ( o. 

A. 单机 计算 B. 并 行 计算 C. 网 络 计算 D. 云 计 算 
2. 下 列 活动 不 属于 分 布 式 计算 应 用 的 是 ( o. 

A. Web 冲浪 B. 在 线 视频 播放 应 用 

C. 电子 邮件 应 用 D. 超级 计算 机 上 的 科学 计算 
3. 下 面 不 属于 分 布 式 计算 的 优点 的 是 ( D. 

A. 资源 共享 B. 安全 性 C. 可 扩展 性 D. 容错 性 
4. CAP 理论 主要 是 指 分 布 式 系统 的 ( ) ,三 者 不 能 共存 。 

A. 可 用 性 B. 原子 性 C. 一 致 性 D. 分 区 容错 性 
二 、 问 答题 


1. 什么 是 分 布 式 计 算 ? 它 的 优 缺 点 有 哪些 ? 

2. 什么 是 集中 式 计 算 ? 通过 图 形 方式 描述 集中 式 计算 和 分 布 式 计算 的 区 别 。 

3. CAP 定理 是 什么 ? CAP 定理 对 大 型 分 布 式 计算 应 用 或 系统 的 设计 有 什么 影响 ? 
A. 请 分 析 比 较 各 种 分 布 式 计算 模式 。 


is 2 x 


分 布 式 计算 编程 基础 


本 章 首先 介绍 进程 间 通 信和 Socket API 的 基本 概念 ,接着 重点 阐述 了 流 式 Socket 的 
编程 方法 ,然后 介绍 了 RMI 范 型 的 基本 概念 ,并 重点 给 出 了 RMI 分 布 式 应 用 开发 的 基本 方 
法 和 流程 ,最 后 讨论 了 P2P 技术 和 给 出 P2P 编程 基本 方法 。 


2.1 进程 间 通信 


2.1.1 进程 间 通 信和 概念 


分 布 式 计算 的 核心 技术 是 进程 间 通 信 (Interprocess Communication,IPC), 即 在 互相 独 
立 的 进程 (进程 是 程序 的 运行 时 表示 ) 间 通信 及 共同 协作 以 完成 某 项 任务 的 能 力 。 图 2-1 给 
出 基本 的 TPC 机 制 : 两 个 运行 在 不 同 计算 机 上 的 独立 进程 (Processl 和 Process2) ,通过 互 
联网 交换 数据 。 其 中 ,进程 Processl 为 发 送 者 (sender) ,进程 Process2 为 接收 者 (receiver) 。 

在 分 布 式 计算 中 ,两 个 或 多 个 进程 按 约 定 的 某 种 协议 进行 IPC, 此 处 协议 是 指数 据 通信 
各 参与 进程 必须 遵守 的 一 组 规则 。 在 协议 中 ,一 个 进程 有 些 时 候 可 能 是 发 送 者 ,在 其 他 时 候 
则 可 能 是 接收 者 。 如 图 2-2 所 示 , 当 一 个 进程 与 男 一 个 进程 进行 通信 时 ,IPC 被 称 为 单 播 
(unicast); 当 一 个 进程 与 男 外 一 组 进程 进行 通信 时 ,IPC 被 称 为 组 播 (multicast) 。 


Process1 Process2 P; P, P] … [Py 
data m Nhs 


Pi P, 
sender receiver unicast multicast 


图 2-1 进程 间 通 信 图 2-2 ” 单 播 通信 和 组 播 通信 
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操作 系统 为 进程 间 通 信 提 供 了 相应 的 设施 , 称 之 为 系统 级 IPC 设施 。 例 如 消息 队列 ， 
共享 内 存 等 。 直 接 利用 这 些 系 统 级 IPC 设施 ,就 可 以 开发 出 各 种 网 络 软件 或 分 布 式 计 算 系 
统 。 然 而 ,基于 这 种 比较 底层 的 系统 级 IPC 设施 开发 分 布 式 应 用 往往 工作 量 比较 大 且 复 
杂 , 所 以 一 般 不 直接 基于 系统 级 IPC 设施 开发 。 为 了 使 编程 人 员 从 系统 级 IPC 设施 的 编程 
细节 中 摆脱 出 来 ,可 以 对 底层 IPC. 设施 进行 抽象 ,提供 高 层 的 IPC API (Application 
Programming Interface, 应 用 编程 接口 或 应 用 程序 接口 , 常 缩写 为 API) 。 该 API 提供 了 对 
系统 级 设施 的 复杂 性 和 细节 的 抽象 ,因此 ,编程 人 员 开 发 分 布 式 计算 应 用 时 ,可 以 直接 利用 
这 些 高 层 的 IPC API, 更 好 地 把 注意 力 集中 在 应 用 逻辑 上 即 可 。 


2.1.2 IPC 原型 与 示例 


下 面 考虑 可 以 提供 IPC 所 需 的 最 低 抽象 层 的 基本 API。 在 这 样 的 API 中 需要 提供 四 
种 基本 操作 是 : 

发 送 (Send)。 该 操作 由 发 送 进程 发 起 , 旨 在 向 接收 进程 传输 数据 。 操 作 必须 允许 发 送 
进程 识别 接收 进程 和 定义 待 传 数据 。 

接收 (Receive) 。 该 操作 由 接收 进程 发 起 , 旨 在 接收 发 送 进程 发 来 的 数据 操作 必须 允许 
接收 进程 识别 发 送 进 程 和 定义 保存 数据 的 内 存 空 间 ,该 内 存 随后 被 接收 者 访问 。 

连接 (Connect) 。 对 面向 连接 的 IPC ,必须 有 允许 在 发 起 进程 和 指定 进程 间 建 立 多 辑 连 
击 的 操作 : 其 中 某 进 程 发 出 请 求 连接 操作 而 另 一 进程 发 出 接受 连接 操作 。 

断 开 连接 (Disconnect) 。 对 面向 连接 的 IPC ,该 操作 允许 通信 的 双方 关闭 先前 建立 起 来 
的 某 一 多 辑 连 接 。 

参与 IPC 的 进程 将 按照 某 种 预先 定义 的 顺序 发 起 这 些 操 作 。 每 个 操作 的 发 起 都 会 引 
起 一 个 事件 的 发 生 。 例 如 ,发 送 进程 的 发 送 操作 导致 一 个 把 数据 传送 到 接收 进程 的 事件 ,而 
接收 进程 发 出 的 接收 操作 导致 数据 被 传送 到 进程 中 。 注 意 ,参与 进程 独立 发 起 请 求 ,每 个 进 
程 都 无 法 知道 其 他 进程 的 状态 。 

HTTP 是 一 种 超 文本 传输 协议 ,已 被 广泛 应 用 于 WWW., 该 协议 中 一 个 进程 (浏览 器 ) 
通过 发 出 connect 操作 ,建立 到 另 一 进程 (Web 服务 器 ) 的 逻辑 连接 ,随后 向 Web 服务 器 发 
送 send 操作 传输 数据 请 求 。 接 着 ,Web 服务 器 进程 发 出 一 个 send 操作 ,传输 Web 浏览 器 
进程 所 请 求 的 数据 。 通 信 结 束 时 ,每 个 进程 都 发 出 一 个 disconnect 操作 终止 连接 。 图 2-3 
给 出 HTTP 协议 的 IPC 基本 操作 流程 ,基于 HTTP 的 分 布 式 计 算 需 按照 这 个 流程 开发 。 


Web server 
@) © © operations: 
a process HTTP} S1: accept connection 
request 


S2: receive (request) 


C) an operation HTTP a send (response) 
response S4: disconnect 


C1: make connection 
-— (d CD EE) C2: send (request) 
C3: receive (response) 
Web browser C4: disconnect 


2-3 HTTP 中 的 进程 间 通 信 
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2.2 Socket 编程 


2.2.1 Socket 概述 


Socket API 最 早 作为 Berkeley UNIX 操作 系统 的 程序 库 , 出 现 于 20 世纪 80 ERE 
期 ,用 于 提供 IPC 功能 。 现 在 所 有 主流 操作 系统 都 支持 Socket API。 在 BSD, Linux 等 基于 
UNIX 的 系统 中 ,Socket API 都 是 操作 系统 的 一 部 分 。 在 个 人 计算 机 操作 系统 如 MS-DOS、 
Windows NT,Mac-OS,OS/2 中 ,Socket API 都 是 以 程序 库 形式 提供 的 (在 Windows 系统 
中 ,Socket API 称 为 Winsocket) 。Java 语言 在 设计 之 初 就 考虑 到 了 网 络 编程 ,也 将 Socket 
API 作为 语言 核心 类 的 一 部 分 提供 给 用 户 。 所 有 这 些 API 都 使 用 相同 的 消息 传递 模型 和 


非常 类 似 的 语法 。 
Socket API 是 实现 进程 间 通 信 的 第 一 种 编程 设施 。Socket API 非常 重要 的 原因 主要 
有 以 下 两 点 : 


1) Socket API 已 经 成 为 IPC 编程 事实 上 的 标准 ,高 层 IPC 设施 都 是 构建 于 Socket 
API 之 上 的 , 即 它们 是 基于 Socket API 实现 的 。 

2) 对 于 响应 时 间 要 求 较 高 或 在 有 限 资源 平台 上 运行 的 应 用 ,用 Socket API 实现 是 最 
合适 的 。 

如 图 2-4 所 示 ,Socket API 的 设计 者 提供 了 一 种 称 为 Socket 的 编程 类 型 。 希 望 与 男 一 
进程 通信 的 进程 必须 创建 该 类 型 的 一 个 实例 (实例 化 一 个 socket 对 象 ) ,两 个 进程 都 可 以 使 
用 Socket API 提供 的 操作 发 送 和 接收 数据 。 


Process A Process B 


| a socket 
图 2-4 Socket API 


在 Internet 网 络 协议 的 体系 结构 中 ,传输 层 上 有 两 种 主要 协议 : UDP( User Datagram 
Protocol, 用 户 数据 包 协议 ) 和 TCPCTransmission Control Protocol ,传输 控制 协议 ) UDP 
允许 使 用 无 连接 通信 传输 报 文 ( 即 在 传输 层 发 送 和 接受 )。 被 传输 报 文 称 为 数据 包 
(datagram) 。 根 据 无 连接 通信 协议 ,每 个 传输 的 数据 包 都 被 分 别 解析 和 路 由 ,并 且 可 按 任 何 
顺序 到 达 接 收 者 。 例 如 ,如 果 主 机 A 上 的 进程 1 通过 顺序 传输 数据 包 ml、m2, 向 主机 B. 上 
的 进程 2 发 送 消息 ,这些 数据 包 可 以 通过 不 同 路 由 在 网 络 上 传输 ,并 且 可 按 下 列 任何 一 种 顺 
序 到 达 接 收 进程 : ml-m2 或 m2-ml。 在 数据 通信 网络 的 术语 中 ,“ 包 ”( 或 称 分 组 ,英文 为 
packet) 是 指 在 网 络 上 传输 的 数据 单位 。 每 个 包 中 都 包含 有 效 数据 (载荷 , payload) 以 及 一 
些 控制 信息 ( 头 部 信息 ) ,如 目标 地 址 。 
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TCP 是 面向 连接 的 协议 , 它 通过 在 接受 者 和 发 送 者 之 间 建 立 的 逻辑 连接 传输 数据 流 。 
由 于 有 连接 ,从 发 送 者 到 接受 者 的 数据 能 保证 以 与 发 送 次 序 相同 的 顺序 被 接受 。 例 如 ,如 果 
主机 A 上 的 进程 1 顺序 传输 ml、m2, 向 主机 B 上 的 进程 2 发 送 消息 ,接收 进程 可 以 认为 消 
息 将 以 ml-m2 顺序 到 达 , 而 不 是 m2-ml. 

根据 传输 层 所 使 用 协议 不 同 ,Socket API 分 成 两 种 类 型 : 一 种 使 用 UDP 传输 的 Socket 
称 为 数据 包 Socket(Datagram Socket); 另 一 种 使 用 TCP 传输 的 Socket KY Hise Socket 
(Stream Socket)。 由 于 分 布 式 计算 与 网 络 应 用 主要 使 用 流 式 Socket, 后 面 将 重点 讨论 流 式 
Socket 的 开发 技术 。 


2.2.2 WX Socket 编程 


我 们 知道 ,数据 包 Socket API 支持 离散 数据 单元 ( 即 数据 包 ) 交 换 , 流 式 Socket API 则 
提供 了 基于 UNIX 操作 系统 的 流 式 IO 的 数据 传输 模式 。 根 据 定义 , 流 式 Socket API 仅 支 
持 面向 连接 通信 。 

如 图 2-5 所 示 , 流 式 Socket 为 两 个 特定 进程 提供 稳定 的 数据 交换 模型 。 数 据 流 从 一 方 
连续 写 人 ,从 另 一 方 读 出 。 流 的 特性 允许 以 不 同 速率 向 流 中 写 人 或 读 取 数据 ,但 是 一 个 流 式 
Socket 不 能 用 于 同时 与 两 个 及 其 以 上 的 进程 通信 。 


p a stream-mode data socket 


C process 


= write operation 
4 read operation 


a data stream 


FA 2-5 流 式 Socket 模型 


在 Java 中 ,有 两 个 类 提供 了 流 式 Socket API; ServerSocket 和 Socket, 

1) ServerSocket 用 于 接受 连接 , 称 之 为 连接 socket。 

2) Socket 用 于 数据 交换 ,我 们 将 称 之 为 数据 socket. 

图 2-6 演示 了 流 式 Socket API 模型 ,采用 该 API, 服 务 器 进程 建立 一 个 连接 socket, Bf 
后 侦 听 来 自 其 他 进程 的 连接 请 求 。 每 次 只 接受 一 个 连接 请 求 。 当 连接 被 接受 后 ,将 为 该 连 
接 创建 一 个 数据 socket。 服 务 器 进程 可 通过 数据 socket 从 数据 流 读 取 数据 或 向 其 中 写 入 
数据 。 一 旦 两 进程 之 间 的 通信 会 话 结 束 ,数据 socket 被 关闭 ,服务 器 可 通过 连接 socket A 
由 接受 下 一 个 连接 请 求 。 

客户 进程 创建 一 个 socket, 随 后 通过 服务 器 的 连接 socket 向 服务 器 发 送 连接 请 求 。 一 
且 请 求 被 接受 ,客户 socket 与 服务 器 数据 socket 连接 ,以 便 客户 可 继续 从 数据 流 读 取 数 据 
或 向 数据 流 写 人 数据 。 当 两 进程 之 间 的 通信 会 话 结束 后 ,数据 socket 关闭 。 
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server 


oci 


data socket E 


A server uses two sockets: one for accepting connections, another for send/receive 


connection E | 


client 1 


—— connection operation 


client 2 —— send/receive operation 


FA 2-6 iR Socket API 模型 


图 2-7 描述 了 连接 侦 听 者 和 连接 请 求 者 中 的 程序 流 。 


connection listener (server) 


connection requester (client) 


requests; 


create a connection socket 
and listen for connection 


accept a connection; 
creates a data socket for reading from 
or writing to the socket stream; 
get an input stream for reading 
to the socket; 

= read from the stream; 

get an output stream for writing 

to the socket; 

write to the stream; 

close the data socket; 

close the connection socket. 


create a data socket 
and request for a connection; 


get an output stream for writing 
to the socket; 
write to the stream; 


get an input stream for reading 
to the socket; 

read from the stream; 

close the data socket. 


图 2-7 连接 侦 听 者 和 连接 请 求 者 中 的 程序 流 


在 Java 流 式 Socket API 中 有 两 个 主要 类 : ServerSocket 和 Socket。 类 ServerSocket 
用 来 侦 听 和 建立 连接 ,而 类 Socket 用 于 进行 数据 传输 。 表 2-1 和 表 2-2 分 别 列 出 了 这 两 个 


表 2-1 


类 ServerSocket 的 主要 方法 和 构造 函数 


Method/constructor 


Description 


ServerSocket(int port) 


Creates a server socket on a specified port. 


Socket accept() 
throws IOException 


Listens for a connection to be made to this socket and accepts it. The 


method blocks until a connection is made. 


public void close() 
throws IOException 


Closes this socket. 


void setSoTimeout(int timeout) 
throws SocketException 


Set a timeout period (in milliseconds) so that a call to accept( ) for 
this socket will block for only this amount of time. If the timeout 


expires, a java. io. InterruptedIOException is raised. 
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表 2-2 类 Socket 的 主要 方法 和 构造 函数 
Method/constructor Description 


Creates a stream socket and connects it to the specified port 
Socket(InetAddress address. int port) Ae 
number at the specified IP address. 


void close throws IOException Closes this socket. 

InputStream getInputStream( ) Returns an input stream so that data may be read from this 
throws IOException socket. 

OutputStream getOutputStream( ) Returns an output stream so that data may be written to this 
throws IOException socket. 


Set a timeout period for blocking so that a read( ) call on the 
void setSoTimeout(int timeout) InputStream associated with this Socket will block for only this 


throws SocketException amount of time. If the timeout expires, a java. io. 


InterruptedIOException is raised. 


表 中 ,accept 方法 是 阻塞 操作 ,如 果 没 有 正在 等 待 的 请 求 。 服 务 器 进程 被 挂 起 ,直到 连 
接 请 求 到 达 。 从 与 数据 socket 关联 的 输入 流 中 读 取 数据 时 ,也 即 InputStream 的 read() 方 
法 是 阻塞 操作 ,如 果 请 求 的 所 有 数据 没有 全 部 到 达 该 输入 流 中 ,客户 进程 将 被 阻塞 ,直到 有 
足够 数量 的 数据 被 写 人 数据 流 。 

数据 socket(Socket) 并 没有 提供 特定 的 read() 和 write() 方 法 , 想 要 读 取 和 写 入 数据 必 
须 用 类 InputStream 和 OutputStream 相关 联 的 方法 执行 这 些 操作 。 

Examplel 代码 2. 1 和 代码 2. 2 演示 了 流 式 socket 的 基本 语法 。ExamplelConnectionAcceptor 
通过 在 特定 端口 上 建立 ServerSocket 对 象 接受 连接 。ExamplelConnectionRequestor 创建 
一 个 socket 对 象 ,其 参数 为 Acceptor 中 的 主机 名 和 端口 号 。 一 旦 连接 被 Acceptor 接受 , 消 
息 被 Acceptor TJ A socket 的 数据 流 。 在 Requestor 方 ,消息 从 数据 流 读 出 并 显示 。 


2.1 Examplel ConnectionAcceptor. java 源 代码 


import java.net. * ; 
import java. io. * ; 


public class ExamplelConnectionAcceptor { 
public static void main(String[ ] args) ( 
if (args.length !- 2) 
Systen. out. println("This program requires three command line arguments"); 
else { 
try { 
int portNo = Integer. parseInt(args[0]); 
String message = args[1]; 
//instantiates a socket for accepting connection 
ServerSocket connectionSocket = new ServerSocket(portNo) ; 
System. out. println("now ready accept a connection"); 
Socket dataSocket = connectionSocket. accept(); 
System. out. println("connection accepted"); 
//get a output stream for writing to the data socket 
OutputStream outStream = dataSocket. getOutputStream( ) ; 
//create a PrinterWriter object for character — mode output 
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el 


PrintWriter socketOutput - 
new PrintWriter(new OutputStreamWriter(outStream)); 
//write a message into the data stream 
socketOutput. println(message); 
//The ensuing flush method call is necessary for the data to 
//be written to the socket data stream before the socket is closed. 
socketOutput. flush(); 
System. out. println( "message sent"); 
dataSocket.close( ); 
System. out. println("data socket closed"); 
connectionSocket.close( ); 
System. out. println("connection socket closed"); 

} //end try 

catch (Exception ex) { 
ex. printStackTrace( ); 

} //end catch 

} //end else 
) //end main 
) //end class 


2.2 Examplel ConnectionRequestor. java 源 代 码 


import java.net. * ; 
import java.io. * ; 


public class ExamplelConnectionRequestor ( 
public static void main(String[] args) { 
if (args.length != 2) 
Systen. out. println 
("This program requires two command line arguments"); 
else( 
try { 
InetAddress acceptorHost = InetAddress. getByName(args[0]); 
int acceptorPort = Integer. parseInt(args[1]); 
//instantiates a data socket and connect with a timeout 
SocketAddress sockAddr = new InetSocketAddress(acceptorHost, acceptorPort) ; 
Socket mySocket = new Socket(); 
int timeoutPeriod = 5000; // 2 seconds 
mySocket. connect (sockAddr, timeoutPeriod) ; 
System. out. println("Connection request granted"); 
//get an input stream for reading from the data socket 
InputStream inStream = mySocket.getInputStream( ) ; 
//create a BufferedReader object for text line input 
BufferedReader socketInput = 
new BufferedReader(new InputStreamReader( inStream)); 
Systen. out. println("waiting to read"); 
//read a line from the data stream 
String message = socketInput. readLine( ); 
System. out. println("Message received:") ; 
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System. out. println("\t" + message); 
mySocket. close( ); 
System. out. println("data socket closed"); 
) //end try 

catch (Exception ex) { 
ex. printStackTrace( ); 

r 

) //end else 
} //end main 
} //end class 


在 Examplel 代码 2. 2 中 有 一 些 值 得 关注 的 地 方 : 1) 由 于 这 里 处 理 的 是 数据 流 , 因 此 可 
使 用 Java 类 PrinterWriter 向 socket 写 数 据 和 使 用 BufferedReader 从 流 中 读 取 数据 。 这 些 
类 中 所 使 用 的 方法 与 向 屏幕 写 入 一 行 或 从 键盘 读 取 一 行文 本 相同 。2) 尽 管 本 例 将 
Acceptor 和 Requestor 分 别 作 为 数据 发 送 者 和 数据 接收 者 介绍 ,但 两 者 的 角色 可 以 很 容易 
地 进行 互 换 。 在 那 种 情况 下 , Requestor 将 使 用 getOutputStream 向 socket 中 写 数据 ,而 
Acceptor 将 使 用 getInputStream 从 socket 中 读 取 数据 。3) 事 实 上 , 任 一 进程 都 可 以 通过 调 
用 getInputStream 和 getOutputStream 从 流 中 读 取 数据 或 向 其 中 写 入 数据 。4) 在 本 例 中 ， 
每 次 只 读 写 一 行 数据 (分 别 使 用 readLine 和 println 方法 ) ,但 其 实 也 可 以 每 次 只 读 写 一 行 
中 的 一 部 分 数据 (分 别 使 用 read 和 print 方法 实现 )。 然 而 ,对 于 以 文本 形式 交换 消息 的 文 
本 协议 ,每 次 读 写 一 行 是 标准 做 法 。 

当 使 用 PrinterWriter 向 socket 流 写 数 据 时 ,必须 使 用 flush 方法 真正 地 填充 与 刷新 该 
流 , 从 而 确保 所 有 数据 都 可 以 在 像 socket 突然 关闭 等 意外 情形 发 生 之 前 , 尽 可 能 快 地 从 数 
据 缓 冲 区 中 真正 地 写 入 数据 流 。 

图 2-8 给 出 了 Examplel 的 程序 执行 的 事件 状态 图 。 进 程 ConnectionAcceptor 首先 执 
行 ,该 进程 在 调用 阻塞 accept 方法 时 被 挂 起 。 随 后 ,在 接收 到 Requestor 的 连接 请 求 时 , 解 
除 挂 起 状态 。 在 重新 继续 执行 时 ,Acceptor 在 关闭 数据 socket 和 连接 socket 前 ,向 socket 
中 写 人 一 个 消息 。 


time 
ConnectionAcceptor ConnectionRequestor 
accept l connect request 
1 (from Socket constructor) 
1 
write 
message 1 - 
close 1 © an operation 
data socket ! . 
| process executing 
. . close 
connection socket 
Y close socket | 1 process suspended 
1 


图 2-8 Example4 程序 执行 的 事件 状态 图 
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ConnectionRequestor 的 执行 按 如 下 方式 处 理 , 首先 实例 化 一 个 socket 对 象 , 向 
Acceptor 发 出 一 个 隐 式 connect 请 求 。 尽 管 connect 为 非 阻塞 请 求 , 但 通过 该 连接 的 数据 交 
换 只 有 在 连接 被 另 一 方 接受 后 才能 继续 。 连 接 一 旦 被 接受 ,进程 调用 read 操作 从 socket 中 
读 取消 息 。 由 于 read 是 阻塞 操作 ,进程 被 再 次 挂 起 ,直到 该 消息 数据 被 接受 时 为 止 。 此 时 
进程 关闭 socket, 并 处 理 数据 。 

为 允许 将 程序 中 的 应 用 逻辑 和 服务 逻辑 分 离 , 这 里 采用 了 隐藏 数据 socket 细节 的 子 
类 。 代 码 2. 3 显示 了 类 MyStreamSocket 的 定义 ,其 中 提供 了 从 数据 socket 中 读 取 或 向 其 
h 写 入 数据 的 方法 。 


n 


2.3 MyStreamSocket. java 源 代码 


import java.net. * ; 
import java. io. * ; 


public class MyStreamSocket extends Socket { 

private Socket socket; 

private BufferedReader input; 

private PrintWriter output; 

MyStreamSocket(String acceptorHost, int acceptorPort) throws SocketException, 
IOException( 
Socket - new Socket(acceptorHost, acceptorPort); 
setStreams(); 

i 

MyStreamSocket(Socket socket) throws IOException { 
this.socket = socket; 
setStreams(); 

$ 

private void setStreams() throws IOException( 
//get an input stream for reading from the data socket 
InputStream inStream = socket.getInputStream(); 
input = new BufferedReader(new InputStreamReader( inStream)); 
OutputStream outStream = socket.getOutputStream(); 
//create a PrinterWriter object for character - mode output 
output = new PrintWriter(new OutputStreanWriter(outStream)); 

l 

public void sendMessage(String message) throws IOException { 
output. println(message); 
// The ensuing flush method call is necessary for the data to 
/ [be written to the socket data stream before the socket is closed. 
output. flush(); 

} //end sendMessage 

public String receiveMessage( ) 

throws IOException { 

String message = input. readLine(); //read a line from the data stream 
return message; 

} //end receiveMessage 

public void close() 
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throws IOException ( 
socket. close(); 


) 
) //end class 


Example2 代码 2. 4 和 代码 2. 5 中 所 示 程 序 分 别 是 对 Examplel 的 改进 版 本 ,修改 后 的 
程序 使 用 类 MyStreamSocket 代替 Java 的 类 Socket. 


2.4 Example2 ConnectionAcceptor. java 源 代码 


import java.net. * ; 
import java.io. * ; 


public class Example2ConnectionAcceptor ( 
public static void main(String[] args) { 
if (args.length != 2) 
System. out. println 
("This program requires three command line arguments"); 
else { 
try { 
int portNo = Integer. parseInt(args[0]); 
String message = args[1]; 
//instantiates a socket for accepting connection 
ServerSocket connectionSocket = new ServerSocket(portNo) ; 
System. out. println("now ready accept a connection"); 
//wait to accept a connecion request, at which time a data socket is created 
MyStreamSocket dataSocket = new MyStreamSocket(connectionSocket. accept() ) ; 
System. out. println( "connection accepted"); 
dataSocket. sendMessage(message) ; 
System. out. println("message sent"); 
dataSocket. close() ; 
System. out. println("data socket closed"); 
connectionSocket. close(); 
Systen. out. println("connection socket closed"); 
) //end try 
catch (Exception ex) ( 
ex. printStackTrace(); 
) //end catch 
) //end else 
) //end main 
) //end class 


2.5 Example2 ConnectionRequestor. java 源 代 码 


import java.net. * ; 
import java. io. * ; 


public class Example2ConnectionRequestor { 
public static void main(String[] args) { 
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if (args. length != 2) 
System. out. println 
("This program requires two command line arguments"); 
else ( 
try { 
String acceptorHost - args[0]; 
int acceptorPort - Integer.parseInt(args[1]); 
//instantiates a data socket 
MyStreamSocket mySocket - new MyStreamSocket(acceptorHost, acceptorPort); 
System. out. println("Connection request granted"); 
String message - mySocket. receiveMessage(); 
System. out. println("Message received:"); 
System. out. println("\t" + message); 
mySocket. close(); 
System. out. println("data socket closed"); 
) //end try 
catch (Exception ex) { 
ex. printStackTrace(); 
) 
} //end else 
) //end main 
) //end class 


本 节 主 要 介绍 流 式 Socket API 的 基本 开发 接口 和 方法 ,关于 流 式 socket 开发 的 进一步 
学 习 , 可 以 参考 我 们 编写 的 另外 一 本 教材 (分 布 式 计算 、 云 计算 与 大 数据 》。 


2.3 RMI 编程 


2.3.1 RMI 概述 


RMI(Remote Method Invocation) 即 远程 方法 调用 。RMI 是 RPC 模型 的 面向 对 象 实 
现 , 是 一 种 用 于 实现 远程 过 程 调 用 的 应 用 程序 编程 接口 , 它 使 客户 机 上 运行 的 程序 可 以 调用 
远程 服务 器 上 的 对 象 。 如 图 2-9 所 示 ,在 该 范 型 中 ,进程 可 以 调用 对 象 方法 ,而 该 对 象 可 驻 
留 于 某 远 程 主机 中 。 与 RPC 一 样 ,参数 可 随 方法 调用 传递 ,也 可 提供 返回 值 。 


Process 2 


Process 1 


remote method invocation | /© method? 
十 -| 
O method2 


aremote object 


图 2-9 RMI 调用 


由 于 RMI API 只 适用 于 Java 程序 ,所 以 ,一 般 称 为 Java RMI。 但 该 API 相对 简单 , 因 
此 ,非常 适合 用 作 学 习 网 络 应 用 中 分 布 式 对 象 技术 的 入 门 资料 。 
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Java RMI 使 用 接口 化 编程 。 在 需要 服务 端的 某 一 个 远程 对 象 时 ,编程 人 员 通 过 定义 一 
个 该 对 象 的 接口 隐藏 它 的 实现 ,并 在 客户 端 定义 一 个 相同 的 接口 ,客户 端 使 用 该 接口 可 以 像 
本 地 调用 一 样 实现 远程 方法 调用 。 通 过 调用 RMI 的 API, 对 象 服务 器 通过 目录 服务 导出 和 
注册 远程 对 象 ,这 些 对 象 提供 一 些 可 以 被 客户 程序 调用 的 远程 方法 。 从 语法 上 看 ,RMI Ñ 
过 远程 接口 声明 远程 对 象 , 该 接口 是 Java 接口 的 扩展 ; 远程 接口 由 对 象 服务 器 实现 ; 对 象 
客户 使 用 与 本 地 方法 调用 类 似 的 语法 访问 远程 对 象 ,并 调用 远程 对 象 的 方法 。Java RMI 使 
编程 人 员 能 够 在 网 络 环境 中 分 布 工作 , 极 大 地 简化 了 远程 方法 调用 的 过 程 。 后 面 将 详细 介 
绍 Java RMI 的 具体 内 容 。 


2.3.2 RMI 基本 分 布 式 应 用 


本 节 通 过 Java RMI API 介绍 RMI 基本 分 布 式 应 用 开发 , 它 包 括 三 方面 内 容 : 远程 接 
E .服务 器 端 软件 和 客户 端 软件 。 基 于 RMI API 可 以 实现 基本 分 布 式 应 用 、 客 户 回调 应 用 
和 桩 下 载 应 用 的 开发 ,客户 回调 应 用 开发 和 桩 下 载 应 用 的 开发 方法 可 以 参考 我 们 编写 的 另 
外 一 本 教材 (分 布 式 计算 、 云 计算 与 大 数据 》。 

1. 远程 接口 定义 

在 RMI API 中 ,分 布 式 对 象 的 创建 开始 于 远程 接口 。Java 接口 是 为 其 他 类 提供 模板 
的 一 种 类 : 它 包括 方法 声明 或 签名 ,其 实现 由 实现 该 接口 的 类 提供 。 

Java 远程 接口 是 继承 Java 类 Remote 的 一 个 接口 ,该 类 允许 使 用 RMI 语法 实现 接口 。 
与 必须 为 每 个 方法 签名 定义 扩展 和 RemoteException 不 同 , 远 程 接口 语法 与 常规 或 本 地 
Java 接口 相同 。 


2.6 SomeInterface. java 源 代码 
import java. rmi. * ; 


public interface SomeInterface extends Remote ( 
//signature of first remote method 
public String someMethod1() throws java. rmi. RemoteException; 
//signature of second remote method 
public int someMethod2(int x) throws java. rmi. RemoteException; 
//signature of other remote methods may follow 

} //end interface 


本 例 声 明了 一 个 somelnterface 接口 ,该 接口 扩展 了 Java 类 remote, 使 之 成 为 远程 接 
口 。java. rmi, RemoteException 必须 在 每 个 方法 签名 的 throws 子 句 中 出 现 。 在 远程 方法 
调用 过 程 发 生 错误 时 ,将 产生 该 类 型 的 一 个 异常 ,该 异常 需要 由 方法 调用 者 程序 处 理 。 这 些 
异常 的 产生 原因 包括 进程 通信 时 发 生 错 误 ,如 访问 失败 和 链接 失败 ,也 可 能 是 该 远程 方法 调 
用 中 特有 的 一 些 问题 ,包括 因为 未 找到 对 象 ,stub BK skeleton 等 引起 的 错误 。 

2. 服务 器 端 软件 

对 象 服务 器 是 指 这 样 的 一 种 对 象 , 它 可 以 提供 某 一 分 布 式 对 象 的 方法 和 接口 。 每 个 对 
象 服务 器 必须 : 1) 实 现 接口 部 分 定义 的 每 个 远程 方法 ; 2) 向 目录 服务 注册 包含 了 实现 的 对 
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象 。 建 议 按 如 下 所 述 方法 ,将 这 两 部 分 作为 独立 的 类 分 别 实现 。 
1) 远程 接口 实现 
必须 提供 实现 远程 接口 的 类 ,语法 与 实现 本 地 接口 的 类 相似 。 如 下 所 示 : 


2.7 Somelmpl. java 源 代码 


import java. rmi. * ; 
import java. rmi, server. * ; 
/** This class implements the remote interface SomeInterface. * / 
public class SomeImpl extends UnicastRemoteObject implements SomeInterface { 
public String someMethodl() throws RemoteException { 
/ [code to be supplied 
D 
public int someMethod2() throws RemoteException ( 
/ [code to be supplied 
n 
) //end class 


Import 语句 是 在 代码 中 使 用 类 UnicastRemoteObject 和 RemoteException 所 需要 的 语 
句 。 类 的 头 部 必须 定义 : 该 类 是 Java 类 UnicastRemoteObject 的 子 类 ,实现 一 个 特定 远程 
接口 ,本 模板 中 称 为 SomelInterface, 需 要 为 该 类 定义 一 个 构造 函数 ,随后 定义 每 个 远程 方 
法 ,每 个 方法 的 方法 头 应 该 与 接口 文件 中 的 方法 签名 匹配 。 图 2-10 是 SomeImpl 的 UML 
类 图 。 
Somelnterface 


UnicastRemoteObject Methodl 
Method2 


Somelmpl 


Methodl 
Method2 


图 2-10 Somelmpl 的 UML 类 图 


2) stub 和 skeleton 生成 

在 RMI 中 ,分 布 式 对 象 需要 为 每 个 对 象 服务 器 和 对 象 客户 提供 代理 ,分 别 成 为 对 象 
skeleton 和 stub。 这 些 代理 可 通过 使 用 Java SDK 提供 的 RMI 编译 器 rmic, 编 译 远 程 接口 
实现 生成 。 可 在 命令 行 下 输入 下 述 命令 生成 stub 和 skeleton 文件 : 


rmic <class name of the remote interface implementation> 
例如 : 
rmic SomeImpl 


如 果 编 译 成 功 ,将 生成 两 个 代理 文件 ,每 个 文件 的 名 都 以 实现 类 的 类 名 为 前 缀 ,如 
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Somelmpl stub. class 和 SomeImpl_skel. class, 但 在 Java 2 版 本 以 上 的 平台 下 ,只 生成 stub 
文件 。 对 象 的 stub 文件 及 远程 接口 文件 ,必须 被 每 个 对 象 客户 所 共享 : 这 些 文件 是 编译 客 
户 程序 时 所 必须 的 文件 。 可 以 手动 为 对 象 客户 提供 每 个 文件 的 一 个 备份 。 此 外 ,Java RMI 
具有 stub 下 载 特征 ,人 允许 客户 端 动态 获取 stub 文件 。 

3) 对 象 服务 器 的 实现 


2.8 SomeServer. java 源 代码 


import java. rmi. * ; 
import java. rmi. server. * ; 
import java. rmi. registry. Registry; 
import java. rmi. registry. LocateRegistry; 
import java.net. * ; 
import java. io. * ; 
public class SomeServer { 
public static void main(String args[]) { 
String portNum = "1234", registryURL; 
try{ 
//code for obtaining RMI port number value omitted 
SomeImpl exportedObj = new SomeInpl(); 
startRegistry(1234); 
//register the object under the name "some" 
registryURL = "rmi://localhost:" + portNum + "/some"; 
Naming. rebind(registryURL, exportedObj); 
listRegistry(registryURL) ; 
System. out. println("Some Server ready. ") ; 
}//end try 
catch (Exception re) { 
System. out. println("Exception in SomeServer.main: " + re); 
) //end catch 
) //end nain 
//This method starts a RMI registry on the local host, if it 
//does not already exist at the specified port number. 
private static void startRegistry(int RMIPortNum) 
throws RemoteException( 
try { 
Registry registry - LocateRegistry.getRegistry(RMIPortNum); 
registry.list(); 
//The above call will throw an exception if the registry does not already exist 
) 
catch (RemoteException ex) { 
//No valid registry at that port. 
System. out. println("RMI registry cannot be located at port " + RMIPortNum); 
Registry registry = LocateRegistry. createRegistry(RMIPortNum) ; 
System. out. println("RMI registry created at port " + RMIPortNum); 
) 
) //end startRegistry 
private static void listRegistry(String registryURL) 
throws RemoteException, MalformedURLException { 
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System.out.println("Registry " + registryURL + " contains: "); 
String [] names = Naming. list(registryURL) ; 
for (int i=0; i< names.length; i++) 
System. out. println(names[i]); 
) //end listRegistry 
) //end class 


在 我 们 的 对 象 服务 器 模板 中 ,输出 对 象 代码 如 下 : 


//register the object under the name "some" 
registryURL = "rmi://localhost:" + portNum + "/some"; 
Naming.rebind(registryURL, exportedObj); 


类 Naming 提供 从 注册 表 获 取 和 存储 引用 的 方法 。 具 体 来 说 ,rebind 方法 允许 如 下 形 
式 URL 将 对 象 引 用 存储 到 注册 表 中 : 


rmi://< host name >:< port number >/< reference name > 


rebind 方法 将 履 盖 注册 表 中 与 给 定 引 用 名 绑 定 的 任何 引用 。 如 果 不 希 望 敢 盖 , 可 以 使 
用 bind 方法 。 

主机 名 应 该 是 服务 器 名 ,或 简写 成 localhost, 引 用 名 指 用 户 选择 的 名 称 , 该 名 称 在 注册 
表 中 应 该 是 唯一 的 。 示 例 代码 首先 检查 RMI 注册 表 当 前 是 否 运行 在 默认 端口 上 。 如 果 不 
在 ,RMI 注册 表 将 被 激活 。 此 外 ,可 以 使 用 JDK 中 的 rmiregistry 工具 在 系统 提示 符 输 入 下 
列 命令 ,手动 激活 RMI 注册 表 : 


rmiregistry < port number > 


其 中 ,port number 是 TCP 端口 号 ,如 果 未 指定 端口 号 ,将 使 用 默认 端口 号 1099 。 

当 对 象 服务 器 被 执行 时 ,分布 式 对 象 的 输出 ,将 导致 服务 器 进程 开始 侦 听 和 等 待 客户 连 
接 和 对 象 服务 请 求 。RMI 对 象 服务 器 是 并 发 服务 器 : 每 个 对 象 客户 请 求 都 使 用 服务 器 上 
的 一 个 独立 线程 服务 。 由 于 远程 方法 调用 可 并 发 执行 ,因此 远程 对 象 实现 的 线程 安全 性 非 
常 重要 。 

3. 客户 端 软件 

客户 类 程序 与 任何 其 他 Java 类 相似 。RMI 所 需 的 语法 包括 定位 服务 器 主机 的 RMI 注 
册 表 和 查找 服务 器 对 象 的 远程 引用 ; 该 引用 随后 可 被 传 到 远程 接口 类 和 被 调用 的 远程 
方法 。 

2.9 SomeClient, java 源 代码 

import java. rmi. * ; 

import java. io. * ; 

import java. rmi. registry. Registry; 


import java. rmi. registry. LocateRegistry; 
public class SomeClient { 
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public static void main(String args[]) ( 
try { 
String registryURL = "rmi://localhost:" + portNum + "/some"; 
SomeInterface h = (SomeInterface)Naming. lookup(registryURL) ; 
String message = h.methodl(); // invoke the remote method(s) 
System. out. println(message); 
//method2 can be invoked similarly 
} //end try 
catch (Exception e) { 
System, out. println("Exception in SomeClient: " + e); 
} 
} //end main 
//Definition for other methods of the class, if any. 
}//end class 


查找 远程 对 象 : 如 果 对 象 服 务 器 先前 在 注册 表 中 保存 了 对 象 引 用 ,可 以 用 类 Naming 
的 lookup 方法 获取 这 些 引用 。 注 意 ,应 将 获取 的 引用 传 给 远程 接口 类 。 


String registryURL = "rmi://localhost:" + portNum * "/some"; 
SomeInterface h = (SomeInterface) Naming. lookup(registryURL); 


调用 远程 方法 : 远程 接口 引用 可 以 调用 远程 接口 中 的 任何 方法 ,例如 : 


String message = h.methodl(); 
Systen. out. println(message); 


注意 ,调用 远程 方法 的 语法 与 调用 本 地 方法 相同 。 

4. RMI 应 用 代码 示例 

下 面 详细 给 出 RMI 应 用 示例 Hello 的 完成 源 代 码 ,包括 远程 接口 HelloInterface. java, 
远程 接口 实现 类 HelloImpl. java、 对 象 服务 器 HelloServer. java 和 客户 端 程序 HelloClient 


. java, 
2.10 HelloInterface. java 源 代码 


import java. rmi. * ; 
public interface HelloInterface extends Remote { 

public String sayHello(String name) throws java. rmi. RemoteException; 
) //end interface 


2.11 HelloImpl. java 源 代码 


import java. rmi. * ; 
import java. rmi. server. * ; 
public class HelloImpl extends UnicastRemoteObject implements HelloInterface { 
public HelloImpl() throws RemoteException ( 
super(); 
] 
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public String sayHello(String name) throws RemoteException { 
return "WELCOME TO RMI !" + name; 
} 
} //end class 


2.12 HelloServer. java 源 代码 


import java. rmi. * ; 
import java. rmi. server. * ; 
import java. rmi. registry. Registry; 
import java. rmi. registry. LocateRegistry; 
import java.net. * ; 
import java.io. * ; 
public class HelloServer { 
public static void main(String args[]) { 
InputStreamReader is = new InputStreamReader(System. in) ; 
BufferedReader br = new BufferedReader(is) ; 
String portNum, registryURL; 
try{ 
System. out. println("Enter the RMIregistry port number:") ; 
portNum = (br.readLine()).trim(); 
int RMIPortNum = Integer. parseInt(portNum) ; 
startRegistry(RMIPortNum) ; 
HelloImpl exportedObj = new HelloImpl(); 
registryURL - "rmi://localhost:" * portNum * "/hello"; 
Naming. rebind(registryURL, exportedObj); 


System. out. println("Server registered. Registry currently contains:"); 


//list names currently in the registry 
listRegistry(registryURL); 
Systen. out. println("Hello Server ready."); 
)//end try 
catch (Exception re) ( 
System. out. println("Exception in HelloServer.main: " + re); 
) //end catch 
) //end main 
//This method starts a RMI registry on the local host, if it 
//does not already exists at the specified port number. 
private static void startRegistry(int RMIPortNum) 
throws RemoteException( 
try { 
Registry registry - LocateRegistry.getRegistry(RMIPortNum); 
registry.list(); } 
catch (RemoteException e) ( 
//No valid registry at that port. 


System. out. println("RMI registry cannot be located at port ”+ RMIPortNum); 


Registry registry - LocateRegistry.createRegistry(RMIPortNum); 
System. out. println("RMI registry created at port " + RMIPortNum); 
) 
) //end startRegistry 
//This method lists the names registered with a Registry object 
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private static void listRegistry(String registryURL) 
throws RemoteException, MalformedURLException { 


System.out.println("Registry " + registryURL + " contains: "); 


String [ ] names = Naming.list(registryURL); 
for (int i=0; i< names. length; i++) 
System. out. println(names[i]); 
} //end listRegistry 
) //end class 


2.13  HelloClient, java 源 代码 


import java. io. * ; 

import java. rmi. * ; 

public class HelloClient { 

public static void main(String args[]) ( 
try { 

int RMIPort; 
String hostName; 
InputStreamReader is = new InputStreamReader(System. in); 
BufferedReader br = new BufferedReader( is); 
System. out. println("Enter the RMIRegistry host namer:") ; 
hostName = br. readLine(); 
System. out. println("Enter the RMIregistry port number:") ; 
String portNum = br.readLine(); 
RMIPort = Integer. parseInt(portNum) ; 


String registryURL = "rmi://" + hostName+ ":" + portNum + "/hello"; 


//£ind the remote object and cast it to an interface object 


HelloInterface h = (HelloInterface) Naming. lookup(registryURL); 


System. out. println( "Lookup completed " ); 
//invoke the remote method 
String message - h.sayHello("Me"); 
System. out. println("HelloClient: " + message); 

) //end try 

catch (Exception e) ( 
System. out. println("Exception in HelloClient: " + e); 

) 

) //end nain 
)//end class 


如 图 2-11 所 示 ,设计 基本 RMI 基本 应 用 时 ,展示 了 需要 设计 的 类 及 关系 ,并 给 出 执行 
的 序列 图 ,更 好 地 帮助 读者 理解 RMI 的 执行 过 程 。 理 解 前 面 描述 的 RMI 示例 应 用 的 基本 
结构 之 后 ,读者 将 能 够 使 用 模板 中 的 语法 ,通过 替换 表示 层 和 应 用 层 逻 辑 ,来 构建 任何 人 MI 


应 用 ,但 服务 迎 辑 不 变 。 
RMI 技术 是 开发 服务 层 软 件 构件 的 一 种 很 好 的 候选 技术 。 


个 工业 应 上 


示例 是 企业 


费用 报表 系统 [java. sum. com/marketing]。 在 该 示例 中 ,对 象 服务 器 提供 了 一 些 远程 方法 ， 
用 于 支持 对 象 客户 从 费用 记录 数据 库 中 查找 或 更 新 数据 。 对 象 客户 程序 提供 处 理 数据 的 应 


用 逻辑 或 业务 多 辑 ,以 及 用 户 界面 的 表示 逻辑 。 
5. RM 应 用 构建 步骤 


前 面 介绍 了 RMI API 的 各 个 方面 ,现在 将 通过 描述 构建 RMI 应 用 分 渐进 过 程 总 结 相 
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图 2-11 Hello 应 用 的 类 图 及 序列 图 


关内 容 , 使 读者 能 实践 该 范 型 ,这 里 将 描述 如 何在 对 象 服务 器 以 及 对 象 客户 双方 实现 该 应 用 
算法 。 请 注意 ,在 生产 环境 中 ,双方 软件 的 开发 可 以 分 别 独立 地 进行 。 


1) 服务 器 端 软件 开发 算法 


CD 为 该 应 用 的 所 有 待 生成 文件 创建 一 个 目录 。 
(2) 在 SomeInterface. java 中 定义 远程 服务 器 接口 。 编 译 并 修改 程序 ,直到 不 再 有 任何 


语法 错误 。 


(3) Somelmpl. java 中 实现 接口 ,编译 并 修改 程序 ,直到 不 再 有 任何 语法 错误 。 
(4) 使 用 RMI 编译 器 rmic 处 理 实现 类 ,生成 远程 对 象 的 stub 文件 : 


rmic Somelmpl 


(5) 可 以 从 目录 中 看 到 新 生成 文件 SomeImpl. Stub. class, 每 次 修改 接口 实现 时 ,都 要 


重新 执行 步骤 3 和 步骤 4。 


(6) 创建 对 象 服务 器 程序 SomeServer. java, 编 译 并 修改 程序 ,直到 不 再 有 任何 语法 错误 。 


C) 激活 对 象 服务 器 : 
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java SomeServer 


2) 客户 端 软件 开发 算法 

CD 为 该 应 用 的 所 有 待 生 成 文件 创建 一 个 目录 。 

(2) 获取 远程 接口 类 文件 的 一 个 备份 ,也 可 获取 远程 接口 源 文件 的 一 个 备份 ,使 用 
javac 编译 程序 ,生成 接口 文件 。 

(3) 获取 接口 实现 stub 文件 SomeImpl_stub. class 的 一 个 备份 。 

(4) 开发 客户 程序 SomeClient. java, 编 译 程序 ,生成 客户 类 。 

(5) 激活 客户 : 


java SomeClient 
图 2-12 示 出 了 应 用 中 各 文件 在 客户 及 服务 器 端的 放置 情况 ,远程 接口 类 和 每 个 远程 对 


象 的 stub 类 文件 都 必须 和 对 象 客户 类 一 起 , 放 在 对 象 客户 主机 上 ,服务 器 端 包 括 接口 类 、 对 
象 服务 类 ,接口 实现 类 及 远程 对 象 的 stub 类 。 


Object Client host Object Server host 


object server directory 


object client directory Somelnterface.class 


SomeServer.class 


Somelnterface.class 


Somelmpl.class 


SomeClient.class 


Somelmpl Stub.class 


Somelmpl Skel.class 


图 2-12. RMI 应 用 的 文件 放置 位 置 

3) 测试 和 调试 

与 任何 其 他 形式 的 网 络 编程 一 样 ,并 发 进程 的 测试 和 调试 工作 非常 烦琐 ,建议 读者 在 开 
R RMI 应 用 时 ,遵循 下 列 步骤 。 

(1) 构建 最 小 RMI 程序 的 一 个 模板 。 从 一 个 远程 接口 开始 ,其 中 包括 一 个 方法 签名 ， 
一 个 stub 实现 ,一 个 输出 对 象 的 服务 器 程序 以 及 一 个 足以 用 来 调用 远程 方法 的 客户 程序 。 
在 单机 上 测试 模板 程序 ,直到 远程 方法 调用 成 功 。 

(2) 每 次 在 接口 中 增加 一 个 方法 签名 。 每 次 增加 后 都 修改 客户 程序 来 调用 新 增 方法 。 

(3) 完善 远程 方法 定义 内 容 , 每 次 只 修改 一 个 。 在 继续 下 一 个 方法 之 前 ,测试 并 彻底 调 
试 每 个 新 增 方法 。 

(4) 完全 测试 所 有 远程 方法 后 ,采用 增 量 式 方法 开发 客户 应 用 。 每 次 增加 后 ,都 测试 和 

O 将 程序 部 署 到 多 台 机 器 上 ,测试 并 调试 。 

6. RMI 和 socket API 的 比较 

远程 方法 调用 API 作为 分 布 式 对 象 计算 范 型 的 代表 ,是 构建 网 络 应 用 的 有 效 工 具 。 它 
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可 用 来 取代 Socket API 快速 构建 网 络 应 用 。 在 RMI API 和 Socket API 之 间 权 衡 时 ,需要 
考虑 以 下 因素 。 

1) Socket API 的 执行 与 操作 系统 密切 相关 ,因此 执行 开销 更 小 ,RMI 需要 额外 的 中 间 
件 支持 ,包括 代理 和 目录 服务 ,这 些 不 可 避免 地 带 来 运行 时 开销 。 对 有 高 性 能 要 求 的 应 用 来 
说 ,Socket API 仍 将 是 唯一 可 行 途径 。 

2) 在 另 一 方面 ,RMI API 提供 了 使 软件 开发 任务 更 为 简单 的 抽象 。 用 高 级 抽象 开发 
的 程序 更 易 理 解 , 因 此 也 更 易 调 试 。 

由 于 运行 在 低层 ,Socket API 通常 是 平台 和 语言 独立 的 ,RMI 则 不 一 定 。 例 如 ,Java 
RMI 需要 特定 的 Java 运行 时 支持 。 结 果 是 ,使 用 Java RMI 实现 的 应 用 必须 用 Java 编写 ， 
并 且 也 只 能 运行 在 Java 平 台 上 。 

在 设计 应 用 系统 时 ,是 否 能 选择 适当 的 范 型 和 API 是 非常 关键 的 。 依 赖 于 具体 环境 ， 
可 以 在 应 用 的 某 些 部 分 使 用 某 种 范 型 或 API, 而 在 其 他 部 分 使 用 另 一 种 范 型 或 API hF 
使 用 RMI 开发 网 络 应 用 相对 简单 ,RMI 是 快速 开发 应 用 原型 的 一 个 很 好 的 候选 工具 。 


2.4 P2P 编程 


P2P, 即 Peer-to-Peer 的 缩写 , 常 称 它 为 “点 对 点 ?或 者 “ 端 对 端 ”, 而 学 术 界 常 称 它 为 “对 
等 计算 ”。P2P 是 一 种 以 非 集中 化 方式 使 用 分 布 式 资源 完成 计算 任务 的 一 种 分 布 式 计算 模 
式 。“ 非 集中 化 ” 指 的 是 P2P 系统 中 并 非 采用 传统 的 以 服务 器 为 中 心 管理 所 有 客户 端的 方 
法 ,而 是 消除 “中 心 ” 的 概念 ,将 原来 的 客户 端 视 为 服务 器 和 客户 端的 综合 体 ;“ 分 布 式 资源 ” 
指 的 是 P2P 系统 的 参与 者 共享 自己 的 一 部 分 空闲 资源 供 系 统 处 理 关 键 任务 所 用 ,这 些 资源 
包括 处 理 能 力 、 数 据 文件 ,数据 存储 和 网 络 带宽 等 。P2P 技术 打破 了 传统 的 Client/Server 
(缩写 为 C/S) 模 式 , 在 P2P 网 络 中 所 有 节点 的 地 位 都 是 对 等 的 ,每 个 节点 既 充当 服务 器 ,又 
充当 客户 端 ,这 样 缓解 了 中 心服 务 器 的 压力 ,使 得 资源 或 任务 处 理 更 加 分 散 化 。 由 于 P2P 
网 络 中 节点 是 Client 和 Server 的 综合 体 , 因 此 节点 也 被 形象 地 称 为 “SERVENT”。 传 统 
C/S 模式 和 P2P 模式 的 对 比如 图 2-13 和 图 2-14 ras. 


Client . SERVENT SERVENT 
M "d Client 
-—- a 
Chent Ja EN Client SERVENT SERVENT 
Client Client SERVENT SERVENT 
Client SERVENT 


Æ 2-13 C/S 模 式 Æ 2-14 P2P 模式 
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可 见 , 通 常 P2P 模式 中 不 区 分 提供 信息 的 服务 器 和 请 求 信息 的 客户 端 ,每 一 个 节点 都 
是 信息 的 发 布 者 和 请 求 者 ,对 等 节点 之 间 可 以 实现 自治 交互 ,无 须 使 用 服务 器 。 而 C/S 模 
式 中 服务 器 和 客户 端 之 间 是 一 对 多 的 主 从 关系 ,系统 的 信息 和 数据 都 保存 在 中 心服 务 器 上 ， 
若 要 索取 信息 ,必须 先 访问 服务 器 ,才能 得 到 所 需 的 信息 , 且 客 户 端 之 间 是 没有 交互 能 力 的 。 
此 外 ,由 于 P2P 模式 中 无 须 中 心服 务 器 ,因此 不 需要 花费 高 昂 的 费用 维护 中 心服 务 器 , 且 每 
个 对 等 节点 都 可 以 在 网 络 中 发 布 和 分 享 信 息 ,使 得 网 络 中 闲散 的 资源 得 到 充分 利用 。 

为 了 让 读者 更 好 地 理解 P2P 分 布 式 计算 模式 和 P2P 应 用 的 开发 方法 ,本 节 使 用 Java 
Socket 实现 一 个 简单 的 基于 P2P 范 型 的 即时 聊天 系统 。 本 节 的 实践 开发 主要 涉及 的 技术 
是 Java Socket 编程 和 多 线程 技术 。 为 了 保证 聊天 数据 接收 的 可 靠 性 ,采用 面向 连接 的 流 式 
Socket, Java 提供 了 一 系列 网 络 编程 的 相关 类 实现 流 式 Socket 通信 ,如 类 ServerSocket 用 
于 建立 连接 ,类 Socket 用 于 数据 交换 ,类 OutputStream 用 于 实现 流 套 接 字 数据 的 发 送 , 类 
InputStream 用 于 实现 流 套 接 字数 据 的 接收 。 

在 编码 前 ,首先 要 分 析 系 统 需 要 实现 的 功能 ,由 于 演示 的 是 简单 的 P2P 即时 聊天 系统 ， 
我 们 仅 设 计 了 如 下 几 个 功能 : 

(1) 点 对 点 单 人 聊天 ; 

(2) 多 人 同时 在 线 聊 天 ， 

(3) 用 户 可 以 自由 加 入 和 退出 系统 ; 

(4) 具备 用 户 在 线 状态 监视 。 

接着 需要 确定 此 聊天 系统 要 采用 哪 种 P2P 模式 ,为 了 简单 起 见 , 采 用 类 似 于 中 心 化 拓 
扑 结构 的 P2P 模式 ,所 有 客户 都 需要 与 中 心服 务 器 相连 ,并 将 自己 的 网 络 地 址 写 入 服务 器 
中 ,服务 器 只 需要 监听 和 更 新 用 户 列 表 信息 ,并 发 送 给 客户 最 新 的 用 户 列表 信息 即 可 。 当 需 
要 点 对 点 聊天 时 ,客户 端 只 需要 从 本 地 用 户 列表 中 读 取 目标 用 户 的 网 络 地 址 ,并 连接 目标 用 
户 , 即 可 实现 通信 。 注 意 ,因为 是 P2P 系统 ,客户 端 要 同时 扮演 服务 器 和 客户 端 两 个 角色 ， 
所 以 ,用 户 登 录 后 都 会 创建 一 个 接收 其 他 用 户 连 接 的 监听 线程 ,以 实现 服务 器 的 功能 。 其 
中 ,中 心服 务 器 和 客户 端 需要 实现 的 任务 如 下 。 

CD 服务 器 主要 任务 : 
创建 Socket、 绑 定 地 址 和 端口 号 ,监听 并 接受 客户 端的 连接 请 求 。 
服务 器 端 在 客户 连接 后 自动 获取 客户 端 用 户 名 、IP 地 址 和 端口 号 ,并 将 其 保存 在 服 
务 器 端的 用 户 列表 中 ,同时 更 新 所 有 在 线 用 户 的 客户 端 在 线 用 户 列表 信息 ,以 方便 
客户 了 解 上 下 线 的 实时 情况 ,以 进行 聊天 。 

当 有 用 户 下 线 时 ,服务 器 端 要 能 即时 监听 到 ,并 更 新 用 户 列表 信息 ,发 送 给 所 有 在 线 

客户 端 。 

对 在 线 用 户 数量 进行 统计 。 

(2) 客户 端 主要 任务 : 

* 客户 端 创建 Socket ,并 调用 connect() 函 数 , 向 中 心服 务 器 发 送 连 接 请 求 。 

。 客户 端 在 登录 后 也 必须 充当 服务 器 ,以 接收 其 他 用 户 的 连接 请 求 ,所 以 需要 创建 一 
个 用 户 接 收 线程 监听 。 

。 用 户 登 录 后 需要 接收 来 自 服务 器 的 所 有 在 线 用 户 信息 列表 ,并 更 新 本 地 的 用 户 列表 
信息 ,以 方便 选择 特定 用 户 进行 聊天 。 
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。 客户 端 可 以 使 用 群发 功能 ,向 在 线 用 户 列表 中 的 所 有 用 户 发 送 聊 天 信息 。 

注意 ,服务 器 向 所 有 客户 发 送 最 新 用 户 列表 信息 ,及 客户 端的 群发 功能 ,都 是 通过 简单 
地 遍历 用 户 列表 来 实现 。 为 了 方 使 本 地 测试 ,我 们 将 服务 器 和 所 有 客户 端的 TP 地 址 都 设 为 
本 地 地 址 127. 0. 0. 1, 并 为 每 个 用 户 分配 一 个 唯一 的 随机 端口 号 ,这 样 便 可 识别 不 同 的 
用 户 。 

中 心服 务 器 启动 后 会 自动 创建 一 个 监听 线程 ,以 接受 客户 端 发 来 的 连接 请 求 。 当 客户 
端 与 服务 器 连接 后 ,客户 端 会 将 自己 的 信息 (用 户 名 IP 地 址 和 端口 号 等 ) 写 人 socket, 服 务 
器 端 从 此 socket 中 读 取 该 用 户 信息 ,并 登记 到 用 户 信息 列表 中 。 然 后 ,服务 器 将 最 新 的 用 
户 信息 列表 群发 给 所 有 在 线 的 客户 端 ,以 便 客 户 端 得 到 最 新 的 用 户 列表 。 图 2-15 中 步骤 1、2 
展示 了 客户 登录 服务 器 的 过 程 。 


Central Server 


"m 
3. 客户 2 与 3 建 


Client3 VIE. ups 


Client2 


2-15 客户 端 与 中 心服 务 器 连接 过 程 


每 个 连接 到 中 心服 务 器 的 客户 都 会 得 到 最 新 的 用 户 信 息 列 表 。 如 图 2-15 中 步骤 3 所 
示 , 若 Client2 欲 与 Client3 聊天 , 则 Client2 检索 自己 的 用 户 信息 列表 ,得 到 Client3 的 用 户 
信息 后 , 便 可 与 Client3 进行 连接 ,实现 通信 。 此 过 程 ,并 不 需要 中 心服 务 器 的 干预 。 

当 有 一 个 客户 需要 下 线 时 ,例如 图 2-16 中 的 Clientl ,那么 Client] 首先 将 下 线 请 求 写 
入 socket, 中 心服 务 器 接收 到 含有 下 线 请 求 标记 的 信息 后 ,Clientl 便 通 过 握手 机 制 下 线 ( 为 
了 安全 关闭 socket), Client] 安全 下 线 后 ,中 心服 务 器 会 将 Clientl 的 用 户 信 息 从 在 线 列表 
中 删除 ,并 将 更 新 后 的 用 户 列表 .下 线 用 户 名 称 和 当前 网 络 的 在 线 用 户 情况 等 群发 给 所 有 在 
线 客户 端 ,以 便 客户 端 得 到 最 新 的 在 线 用 户 列表 。 

客户 端的 群发 功能 与 服务 器 端的 群发 类 似 ,都 采用 遍历 用 户 列表 的 方法 。 例 如 ,图 2-16 
中 Client3 和 欲 与 所 有 在 线 用 户 聊天 , 则 只 要 遍历 Client3 的 在 线 用 户 列 表 , 与 所 有 在 线 用 户 进 
行 连接 , 便 可 以 进行 群 聊 。 

系统 中 类 的 关系 如 图 2-17 所 示 。 

首先 设计 中 心服 务 器 和 客户 端 系统 界面 。 创建 中 心服 务 器 类 Server, 派 生 自 类 
JFrame, 并 按照 图 2-18 所 示 的 界面 创建 按钮 .文本 框 、 列 表 等 。 同 样 ,创建 客户 端 类 Client. 
也 派生 自 类 JFrame, 并 按照 图 2-19 所 示 的 界面 创建 相应 的 组 件 。 类 Server 和 类 Client 都 
需要 实现 ActionListener 接口 ,从 而 对 界面 上 的 按钮 等 动作 进行 监听 。 
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图 2-19 Client 端 界 面 


创建 P2P 网 络 节点 Node 类 ,其 中 包含 用 户 名 VIP 地 址 、 端 口号 和 一 个 节点 变量 next。 
Node 类 的 部 分 代码 如 清单 2. 1 所 示 。 


清单 2.1 Node 类 主要 代码 
public class Node implements Serializable { 


String username = ""; // 用 户 名 
InetAddress ip; //IP 地 址 
int port; // 端 口号 
Node next = null; WER 
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创建 RandomPort 类 用 于 客户 端 分 配 随机 可 用 端口 号 ,由 网 络 知识 可 知 , 可 用 端口 号 要 
小 于 65 535。 用 Random 类 提供 的 方法 生成 一 个 随机 端口 值 后 ,再 用 此 端口 初始 化 
ServerSocket 对 象 , 以 检查 此 端口 是 否 可 用 。RandomPort 的 主要 代码 如 清单 2. 2 所 示 。 


清单 2.2 RandomPort 类 主要 代码 


Random rand = new Randon(); 
while(true) ( // 循 环 直到 取 到 可 用 端口 号 
try ( 
int port = rand. nextInt(65535) ; 
ServerSocket socket = new ServerSocket(port); // 测 试 随机 端口 是 否 可 用 
socket. close() ; 
return port; 
}catch( IOException ioe) { 
ioe. printStackTrace(); } 


} 


创建 用 户 列表 类 UserInfo, 它 用 于 维护 中 心服 务 器 端 和 客户 端的 在 线 用 户 信息 。 
UserInfo 类 中 含有 一 个 ArrayList < Node > 类 型 的 UserNodeList 属性 ,用 于 保存 在 线 用 户 
信息 ,以 及 一 些 向 UserNodeList 中 添加 用 户 节点 、 删 除 用 户 节 点 、 统 计 用 户 列表 节点 数 、 按 
Node. username 检索 列表 和 按 索引 检索 列表 等 行为 。 

实现 中 心服 务 器 Server 类 ,Server 类 中 除了 包含 系统 界面 上 的 一 些 组 件 成 员外 ,还 有 
用 于 维护 在 线 用 户 信息 的 UserInfo 对 象 .用 于 连接 的 ServerSocket 对 象 和 Socket 对 象 ,及 
用 于 套 接 字 输 入 .出 流 的 对 象 。 服 务 器 生成 后 会 进行 相应 的 初始 化 ,并 监听 图 2-18 所 示 服 
务 器 界面 中 按钮 动作 ,予以 相应 处 理 。 

当 单 击 “ 启 动 服 务 器 ”按钮 时 ,会 触发 调用 startServer() 方 法 ,该 方法 为 服务 器 选 定 特定 
的 端口 号 (本 例 中 以 端口 *1234” 为 例 ) ,并 创建 服务 器 端 监听 线程 serverListenThread( 服 务 
器 端 监听 线程 类 ServerListenThread 的 一 个 实例 ) ,等 待 客户 端的 连接 请 求 。 同 时 ,服务 器 
还 会 创建 一 个 线程 ServerReceiveThread ,用 于 接收 客户 端 发 来 的 下 线 请 求 , 并 将 更 新 后 的 
用 户 列表 群发 给 所 有 用 户 。 其 中 ,startServer() 方 法 的 主要 代码 如 清单 2. 3 所 示 。 


清单 2.3 startServer() 方 法 的 部 分 代码 


public void startServer() { 
try{ 
serverSocket = new ServerSocket(1234); // 服 务 器 端口 号 1234 
taRecord. append( "等 待 连接 .……… xin) 
startBtn. setEnabled(false); 
closeBtn. setEnabled(true); 
sendBtn. setEnabled(true); 
cleanBtn. setEnabled(true); 
this.isStop - false; 
userInfo - new UserInfo(); 
// 创 建 服 务 器 端 监听 线程 , 侦 听 客户 端的 连接 请 求 
ServerListenThread serverListenThread = 
new ServerListenThread(serverSocket, taRecord, tfCount, list, userInfo); 
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serverListenThread. start(); 
]catch(Exception e) { 
taRecord. append("error0"); 


) 


当 客户 端 与 服务 器 连接 后 ,会 创建 一 个 线程 ComWithServer, 用 于 将 自己 的 信息 发 送 
给 服务 器 ,并 获取 服务 器 返回 的 最 新 用 户 列表 。 同 时 ,客户 端 创 建 ClientSendThread 线程 ， 
用 于 发 送 本 端的 聊天 信息 。 此 外 ,还 创建 了 接收 线程 ClientReceiveThread, 把 自己 当 作 服 
务 器 ,接收 来 自 其 他 客户 端 发 来 的 信息 。 其 中 ComWithServer 线程 的 主要 代码 如 清单 2. 4 
所 示 。 


清单 2.4. ComWithServer 线程 主要 代码 


public class ComWithServer implements Runnable { 
public void run() { 
try { 
node = new Node(); 
socket = new Socket("127.0.0.1", 1234); // 与 中 心服 务 器 进行 连接 
ip = socket.getLocalAddress(); 
client. setIp(ip); 
client. setPort(Client. this.clientListenPort); 
taRecord. append(" 恭 喜 您 !“"” + tfUserName. getText() + 
"" 您 已 经 连 线 成 功 ， 您 的 划 地 址 为 : " + ip + "\n"); 
// 获 取 可 用 随机 端口 号 
clientListenPort = RandomPort.getAvaiableRandonPort() ; 
out = new ObjectOutputStream( socket. getOutputStream( ) ) ; 
// 将 自己 的 信息 写 人 流 中 , 以 方便 服务 器 获取 
out. writeObject(tfUserName. getText()) ; 
out. flush(); 
out. writeInt(Client. this. clientListenPort) ; 
out. flush(); 
client. setOut(out) ; 
client. setUserName(tfUserName. getText()) ; 
in = new ObjectInputStream( socket. getInputStream( ) ) ; 


int selectedPort = client. getSelectedPort(); 

// 创 建 客户 端 信息 接收 线程 

clientReceiveThread = new ClientReceiveThread(node, 
Socket, in, out, list, taRecord, taInput, tfCount, ip, 
Client.this.clientListenPort, selectedPort); 

clientReceiveThread. start(); 

loginBtn. setEnabled(false); 

logoutBtn. setEnabled(true); 

sendBtn. setEnabled(true); 

cleanBtn. setEnabled(true); 

// 更 新 用 户 列表 

while(true) { 


云 计 算 与 大 数据 技术 理论 及 应 


42 


try { 

String type = (String) in. readObject(); 

// 从 流 中 提取 用 户 信息 ,并 更 新 界面 中 的 List 列表 

if (type. equalsIgnoreCase(" 用 户 列表 ")) ( 

String userList = (String) in. readObject(); 
String userName[] = userList. split("@@"); 
list.removeAll(); 
inti - 0; 
list. add("al1"); 
while(i < userName. length) { 

list. add(userName[ i]) ; 

itt +4 
} 
String msg = (String) in. readObject(); 
tfCount. setText(nsg) ; 
// 获 取 用 户 列表 ,及 显示 系统 消息 和 其 他 用 户 下 线 消息 
Object o = in.readObject(); 
if(o instanceof UserInfo) 

userInfo - (UserInfo)o; 
else 

userInfo. addUser( (Node) o) ; 

Jelse if(type. equalsIgnoreCase(" & 5t ili 8." ) ) ( 
String b = (String)in.readObject(); 
taRecord. append(" &Atili B: " + b + "\n"); 

Jelse if(type. equalsIgnoreCase(" FRA &.") ) ( 
String msg = (String)in.readObject(); 
taRecord. append(" 用 户 下 线 消息 : " + msg + "Wn"); 

}catch(Exception e) { 
taRecord. append("error6" + e.toString()); } 
} 
}eatch(Exception e) { 
taRecord. append("error12" + e.toString()); } 


} 


读者 可 以 参考 系统 的 完整 代码 文件 ,以 加 深 理 解 。 完 成 系统 开发 后 ,将 进行 如 下 的 系统 
测试 。 首 先 启动 Server 端 ,界面 如 图 2-18 所 示 , 单 击 * 启 动 服务 器 按钮 ,系统 记录 提示 “等 
待 连接 .…” 提 示 ,此 时 服务 器 已 启动 ,并 创建 监听 线程 ,等 待 客户 端的 连接 请 求 。 然 后 ,我们 
启动 一 个 Client ,界面 如 图 2-19 所 示 。 输 入 用 户 名 * 张 三 ”, 并 单 击 “登录 按钮 ", 之 后 Server 
端 出 现 * 张 三 ?成 功 登 录 服 务 器 的 提示 信息 ,在线 用 户 列表 中 也 出 现 用 户 * 张 三 ”, 同 时 客户 端 
显示 登录 成 功 提示 ,在 线 列 表 中 也 显示 了 在 线 用 户 信息 ,并 创建 了 接收 其 他 客户 连接 的 线 
程 。 此 时 的 Server 端 如 图 2-20 所 示 . Client 端 如 图 2-21 所 示 。 

此 时 ,再 启动 一 个 Client ,填写 用 户 名 * 李 四 ”, 并 单 击 “登录 ?按钮 。 待 登录 成 功 后 ,测试 
“ 张 三 ” 与 * 李 四” 的 点 对 点 聊天 。 首 先 ,* 张 三 在 本 端的 在 线 用 户 列表 中 选择 李 四 ,并 在 信息 
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图 2-21 客户 “ 张 三 ” 登 录 后 界面 


输入 框 中 输入 一 定 的 聊天 信息 , 单 击 “发 送 ” 按 钮 ,此 时 双方 的 聊天 记录 中 会 出 现 聊 天 信息 提 
示 , 然 后 “ 李 四 ” 也 发 送 一 定 的 聊天 信息 给 “ 张 三 ”, 之 后 双方 的 聊天 界面 如 图 2-22 和 图 2-23 
Bim. 

接着 ,可 以 启动 多 个 客户 端 测试 群发 功能 。 首 先 , 再 启动 一 个 Client. BETS JH P 4" E 
五 ”, 并 登录 服务 器 。 然 后 ,我们 测试 系统 群发 ,Server 端 在 输入 框 中 输入 一 定 的 信息 ,并 单 
击 “ 发 送 ”, 此 时 ,三 个 客户 端 都 会 出 现 系 统 的 群发 信息 。 

至 此 ,基于 P2P 模式 的 简易 聊天 系统 已 开发 完毕 。 本 系统 中 ,我 们 简化 了 节点 搜索 算 
法 、P2P 网 络 模型 等 , 感 兴趣 的 读者 可 以 尝试 开发 比较 完善 的 PZP 系统 ,以 增强 实践 能 力 。 
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2-23 “ 李 四 " 点 对 点 聊天 界面 


习题 


一 、 填空 题 


1. Socket 按照 传输 协议 可 分 为 两 种 ,使 用 UDP 传输 的 Socket 称 为 ,而 使 用 
TCP 的 Socket 称 为 
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.Socket 通信 和 机制 提供 了 两 种 通信 方式 ,分 别 为 和 
. 基于 RMI API 可 以 实现 三 种 分 布 式 应 用 : ， 和 
. P2P 计算 中 的 节点 同时 担任 和 角色 。 
.软件 开发 通常 采用 三 层 架 构 分 别 是 : 
. 服务 器 为 客户 端 提 供 服务 ,服务 器 根据 是 否 引 入 并 发 机 制 ,分 为 两 类 ,分 别 是 : 
和 ; 按照 有 无 状态 可 分 为 和 

二 、 问 答题 

1. 进程 1 向 进程 2 顺序 发 送 三 条 消息 M1,M2,M3。 这 些 消 息 将 可 能 以 何 种 顺序 到 达 
进程 如 果 : 1) 采 用 无 连接 socket 发 送 消息 ; 2) 采 用 面向 连接 socket 发 送 每 条 消息 。 

2. 类 DatagramSocket( 或 其 他 socket 类 ) 的 setToTimeout 方法 中 ,如 果 将 超时 周期 设 
置 为 0, 将 发 生 什么 ? 这 是 否 意味 超时 将 立即 发 生 ? 

3. 写 一 段 可 出 现在 某 main 方法 中 的 Java 程序 片段 ,用 于 打开 一 个 最 多 接收 100B Be 
据 的 数据 包 socket, 设 置 超时 周期 为 5s。 如 果 发 生 超时 , 须 在 屏幕 上 显示 接收 消息 超时 。 

4. 通过 示范 代码 Example2 练习 无 连接 数据 包 socket。 

a， 夯 一 个 UML 类 图 ,解释 类 DatagramSocket、MyDatagramSocket、 Example2SenderReceiver 
及 Example2ReceiverSender 之 间 的 关系 。 

b. 编译 .java 文件 ,启动 Example2ReceiverSender, 随 后 运行 Example2SenderReceiver, 执 行 
该 程序 的 示范 命令 如 下 : 


ane wn 


java Example2ReceiverSender localhost 20000 10000 msgl 
java Example2SenderReceiver localhost 10000 20000 msg2 


描述 运行 结果 ,为 何 两 个 进程 的 执行 顺序 非常 重要 ? 

c. 修改 代码 ,使 SenderReceiver 进程 重复 发 送 和 接收 ,在 每 个 循环 之 间 将 进程 自身 挂 
起 3s。 重 新 编译 并 运行 该 程序 。 采 用 同样 方式 修改 receiverSender, 编 译 并 运行 该 程序 一 
段 时 间 , 然 后 终止 程序 运行 。 描 述 并 解释 结果 。 

5. 本 练习 指导 读者 通过 示范 代码 Example4 以 及 Example5 实验 面向 连接 流 式 socket。 

a. 编译 并 运行 Example4 * . java( 注 意 ; 这 里 的 x* 作为 通配符 使 用 ,Example4 * . java 
指 所 有 以 Example4 开发 并 以 .java 结尾 的 文件 )。 先 启动 Acceptor, 然 后 运行 Requestor, 
示范 命令 如 下 


Java Example4ConnectionAcceptor 12345 Good - day! 
Java Example4ConnectionRequestor localhost 12345 


描述 并 解释 结果 。 
b. 重复 最 后 一 步 , 但 调换 程序 执行 顺序 : 


Java Example4ConnectionRequestor localhost 12345 
Java Example4ConnectionAcceptor 12345 Good - day! 


描述 并 解释 结果 。 
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c. 在 ConnectionAcceptor 进程 将 消息 写 入 socket 之 前 增加 5s 延 时 ,然后 重复 a, 该 修 
改 导致 Requestor 在 读 取 数 据 时 ,保持 5s 阻塞 状态 ,从 而 使 读者 能 形象 地 观察 到 阻塞 效果 。 
显示 进程 输出 结果 。 

6. 试用 Java RMI 实现 一 个 简单 RMI 应 用 ,其 中 客户 向 服务 器 发 送 两 个 整数 (int) , 服 
务 器 计算 数值 之 和 并 将 结果 返回 给 客户 。 

7. 请 在 2. 3. 2 节 基 本 RMI 应 用 Hello 的 SayHello() 方 法 中 增加 休眠 10s 的 代码 ,并 先 
后 分 别 运行 两 个 客户 端 程序 实例 ,测试 RMI 对 象 服务 器 是 否 支 持 并 发 功能 (提示 : 观察 两 
次 调用 输出 结果 的 时 间 间 隔 ) 。 

8. 分 布 式 应 用 最 流行 的 计算 范 型 是 什么 ”请 用 图 形 化 的 方式 描述 该 范 型 的 通信 原理 。 

9. 分 布 式 应 用 最 基本 的 计算 范 型 是 什么 ? 

10. 什么 是 Peer-to-Peer 范 型 ? 请 举 出 三 个 使 用 该 范 型 的 软件 ? 

11. 考虑 本 书 讨论 的 各 种 范 型 的 权衡 因素 ,比较 每 种 范 型 的 优 缺 点 。 
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云 计算 原理 与 技术 


3.1 云 计算 概述 


本 章 首 先 介绍 云 计算 起 源 、 定 义 和 分 类 等 基本 概念 ,接着 重点 曾 述 了 云 计算 的 关键 技 
术 , 然 后 分 别 讨论 了 谷歌 云 、 亚 马 逊 云 和 阿里 云 的 技术 原理 ,并 给 出 了 一 个 基于 亚马逊 云 的 
大 数据 分 析 案 例 , 让 读者 更 深刻 地 理解 如 何 利 用 公有 云 来 实现 大 数据 分 析 应 用 。 


3.1.1 云 计算 起 源 

随 着 信息 和 网 络 通信 技术 的 快速 发 展 ,计算 模式 从 最 初 的 把 任务 交 给 大 型 处 理 机 集中 
计算 ,逐渐 发 展 为 更 有 效率 的 基于 网 络 的 分 布 式 任务 处 理 模式 , 自 20 世纪 80 年 代 起 ,互联 
网 得 到 快速 发 展 ,基于 互联 网 的 相关 服务 的 增加 ,以 及 使 用 和 交付 模式 的 变化 , 云 计算 模式 
应 运 而 生 。 如 图 3-1 所 示 , 云 计算 是 从 网 络 即 计算 机 、 网 格 计算 池 发 展 而 来 的 概念 。 


*SUN 
。“ 网 络 即 
计算 机 ” 


Platform 


。 网 格 计算 池 


图 3-1 云 计算 的 起 源 


早期 的 单 处 理 机 模式 计算 能 力 有 限 , 网 络 请 求 通常 不 能 被 及 时 响应 ,效率 低下 。 随 着 网 
络 技 术 不 断 发 展 ,用 户 通过 配置 具有 高 负载 通信 能 力 的 服务 器 集群 提供 急速 增长 的 互联 网 
服务 ,但 在 遇 到 负载 低 峰 的 时 候 , 通 常会 有 资源 浪费 和 闲置 ,导致 用 户 的 运行 维护 成 本 提高 。 
而 云 计算 把 网 络 上 的 服务 资源 虚拟 化 并 提供 给 其 他 用 户 使 用 ,整个 服务 资源 的 调度 .管理 、 
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维护 等 工作 都 由 云端 负责 ,用 户 不 必 关 心 “ 云 "内 部 的 实现 就 可 以 直接 使 用 其 提供 的 各 种 服 
务 , 因 此 ,如 图 3-2 所 示 , 云 计算 实质 上 是 给 用 户 提供 像 传统 的 电力 水、 煤气 一 样 的 按 需 计 
算 服务 , 它 是 一 种 新 的 有 效 的 计算 使 用 范式 。 


a he 


Se 
rere 


图 3-2 云 计算 的 目标 


云 计算 是 分 布 式 计算 、 效 用 计算 、 虚 拟 化 技术 、Web 服务 、 网 格 计算 等 技术 的 融合 和 发 
展 ,其 目标 是 用 户 通过 网 络 能 够 在 任何 时 间 \ 任 何 地 点 最 大 限度 地 使 用 虚拟 资源 池 , 处 理 大 
规模 计算 问题 。 目 前 ,在 学 术 界 和 工业 界 共同 推动 之 下 , 云 计 算 及 其 应 用 呈现 迅速 增长 的 趋 
势 , 各 大 云 计算 厂商 如 Amazon, IBM, Microsoft, Sun 等 公司 都 推出 了 自己 研发 的 云 计 算 服 
务 平 台 。 而 学 术 界 也 源 于 云 计 算 的 现实 背景 纷纷 对 模型 .应 用 、 成 本 、 仿 真 .性 能 优化 、 测 试 
等 诸多 问题 进行 了 深入 研究 ,提出 了 各 自 的 理论 方法 和 技术 成 果 , 极 大 地 推动 了 云 计算 继续 
向 前 发 展 。 


3.1.2 云 计算 的 概念 与 定义 


2006 年 ,Google 高 级 工程 师 克 里 斯 托 夫 。 比 希 利 亚 第 一 次 向 Google WEKA CEO 施 
密 特 提出 “ 云 计算 ”的 想法 ,在 施 密 特 的 支持 下 ,Google 推出 了 “Google 101 计划 ”( 该 计划 目 
的 是 让 高 校 的 学 生 参 与 到 云 的 开发 ) ,并 正式 提出 * 云 ”的 概念 。 由 此 , 拉 开 了 一 个 时 代 计 算 
技术 以 及 商业 模式 的 变革 。 

如 图 3-3 所 示 ,对 一 般 用 户 而 言 : 云 计 算是 指 通过 网 络 以 按 需 、 易 扩展 的 方式 获得 所 需 
的 服务 。 即 随时 随地 只 要 能 上 网 就 能 使 用 各 种 各 样 的 服务 ,如 同 钱庄 银行、 发 电厂 等 。 这 
种 服务 可 以 是 IT 和 软件 、 互 联网 相关 的 ,也 可 以 是 任意 其 他 的 服务 。 


3-3 一般 用 户 的 云 计算 概 念 
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如 图 3-4 所 示 , 对 专业 人 员 而 言 : 云 计算 是 分 布 式 处 理 、 并 行 处 理 和 网 格 计算 的 发 展 ， 
或 者 说 是 这 些 计 算 机 科学 概念 的 商业 实现 。 是 指 基于 互联 网 的 超级 计算 模式 一 一 即 把 原本 
存储 于 个 人 计算 机 、 移 动 设备 等 个 人 设备 上 的 大 量 信息 集中 在 一 起 ,在 强大 的 服务 器 端 协同 
工作 。 它 是 一 种 新 兴 的 共享 计算 资源 的 方法 ,能 够 将 巨大 的 系统 连接 在 一 起 ,以 提供 各 种 计 
算 服务 。 


司 企业 电脑 
BET EL 


移动 电话 (ir 
个 人 计算 机 和 


PDA 笔记 本 计算 机 
图 3-4 专业 人 员 的 云 计 算 概念 


目前 ,比较 权威 的 云 计 算 定 义 是 美国 国家 标准 技术 研究 院 NIST 提出 的 ,包括 以 下 4 点 : 

CD 云 计算 是 一 种 利用 互联 网 实现 随时 随地 、 按 需 、 便 捷 地 访问 共享 资源 池 ( 如 计算 设 
施 、 存 储 设备 ,应 用 程序 等 ) 的 计算 模式 。 

(2) 云 计算 模式 具有 5 个 基本 特征 : 按 需 自助 服务 、 广 泛 的 网 络 访 问 、 共 享 的 资源 池 ,\ 快 
速 弹性 能 力 、 可 度量 的 服务 。 

(3) 3 种 服务 模式 : 软件 即 服务 (SaaS) F A BIRI (PaaS) .基础 设施 即 服务 (IaaS) 。 

OD 4 种 部 署 方 式 : 私有 云 .社区 云 .公有 云 ,混合 云 。 

在 我 们 看 来 ,理解 云 计算 概念 ,应 该 区 分 云 计 算 的 两 种 不 同 技术 模式 : 

CD. 以 大 分 小 (Amazon 模式 ) ,特征 有 : 硬件 虚拟 化 技术 ,统一 的 资源 池 管 理 动 态 分 配 
资源 ,提高 资源 利用 率 , 降 低 硬件 投资 成 本 ,适合 于 公共 云 平台 提供 商 和 面向 中 小 型 租 任用 户 。 

(2) 以 小 聚 大 (Google 模式 ) ,特征 有 : 分 布 式 存储 (适合 海量 数据 存储 ) ,并 行 计算 ( 适 
合 海量 数据 处 理 ) ,线性 的 水 平 扩 展 能 力 , 适 合 海量 数据 存储 检索、 统计 、 挖 掘 ,在 互联 网 企 
业 应 用 成 熟 。 


3.1.3 云 计算 与 分 布 式 计 算 


1. 云 计 算 与 分 布 式 计算 

按照 狭义 的 概念 来 讲 , 分 布 式 计算 是 将 待 解决 问题 分 成 多 个 小 问题 ,再 分 配给 许多 计算 
系统 处 理 , 最 后 将 人 处理 结果 加 以 综合 。 分 布 式 计算 的 特点 是 把 计算 任务 分 派 给 网 络 中 的 多 
台独 立 的 机 器 并 行 计算 ,与 传统 的 单机 计算 形式 相 比 。 分 布 式 计 算 的 优点 主要 有 : 

(1) 稀有 资源 可 以 共享 。 

(2) 通过 分 布 式 计算 可 以 在 多 台 计 算 机 上 平衡 计算 负载 。 

(3) 可 以 把 程序 放 在 最 适合 运行 它 的 计算 机 上 。 

分 布 式 计算 已 经 在 很 多 领域 加 以 应 用 ,目前 比较 流行 的 分 布 式 项 目 主要 有 : 

(D SETI@Home: 寻找 外 星 文明 。 
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@ RC-72. 密码 分 析 破 解 ,研究 和 寻找 最 为 安全 的 密码 系统 。 

© Folding@home: HH ARTE RAMA. 

(D United Devices; 寻找 对 抗 癌症 的 有 效 的 药物 。 

© GIMPS: 寻找 最 大 的 梅森 素数 (解决 较为 复杂 的 数学 问题 ) 。 

云 计算 是 分 布 式 计算 的 一 种 新 形式 ,但 云 计算 提供 的 服务 包含 了 更 复杂 的 商业 模式 , 云 
计算 包含 的 分 布 式 计算 特征 主要 有 : 

(1) 通过 资源 调度 和 组 合 满足 用 户 的 资源 请 求 。 

(2) 对 外 提供 统一 的 单一 的 接口 。 

2. 云 计算 与 网 格 计算 

网 格 计算 有 了 十 几 年 的 历史 ,提出 时 主要 用 于 科学 计算 。 网 格 计算 的 目的 是 整合 大 量 
异 构 计 算 机 的 闲置 资源 (如 计算 资源 和 磁盘 存储 等 ), 组 成 虚拟 组 织 ,以 解决 大 规模 计算 
问题 。 

云 计 算是 从 网 格 计算 演化 来 的 ,发 展 并 包含 了 网 格 计算 的 内 容 。 网 格 计算 与 云 计算 主 
要 区 别 有 : 第 一 ,网 格 主要 是 通过 聚合 式 分 布 的 资源 ,通过 虚拟 组 织 提供 高 层次 的 服务 ,而 
云 计算 资源 相对 集中 ,通常 以 数据 中 心 的 形式 提供 对 底层 资源 的 共享 使 用 ,而 不 强调 虚拟 组 
织 的 观念 ; 第 二 ,网 格 聚 合资 源 的 主要 目的 是 支持 挑战 性 的 应 用 ,主要 面向 教育 和 科学 计 
算 ,而 云 计 算 一 开始 就 是 用 来 支持 广泛 的 企业 计算 、Web 应 用 等 ; 第 三 ,网 格 用 中 间 件 屏蔽 
异 构 性 ,而 云 计算 承认 异 构 , 用 提供 服务 的 机 制 来 解决 异 构 性 的 问题 。 

3. 云 计算 与 对 等 计算 

对 等 计算 CP2P) 是 一 种 高 效 的 计算 模式 。 如 图 3-5 BER ,在 对 等 计算 系统 中 ,每 个 节点 
都 拥有 对 等 的 功能 与 责任 , 既 可 以 充当 服务 器 向 其 他 节点 提供 数据 或 服务 ,又 可 以 作为 客户 
机 享用 其 他 节点 提供 的 数据 或 服务 ; 节点 之 间 的 交互 可 以 是 直接 对 等 的 ,任何 节点 可 以 随 
时 自由 地 加 入 或 离开 系统 。 云 计算 对 超大 规模 、 多 类 型 资源 的 统一 管理 是 困难 的 ,而 对 等 计 
算 具 有 在 鲁 棒 性 、 可 扩展 性 成 本 、 搜 索 等 方面 的 优点 ,在 云 计 算 体 系 结构 和 平台 设计 方面 多 
有 应 用 。 
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4. 云 计算 与 并 行 计算 

早期 的 并 行 计算 就 是 在 并 行 计算 机 上 所 做 的 计算 , 它 与 常 说 的 高 性 能 计算 、 超 级 计算 是 
同义词 ,因为 任何 高 性 能 计算 和 超级 计算 都 离 不 开 并 行 计算 。 目 前 比较 正式 的 定义 是 ,并 行 
计算 是 相对 于 串 行 计算 来 说 的 ,是 指 同 时 使 用 多 种 计算 资源 解决 计算 问题 的 过 程 。 并 行 计 
算 可 以 划分 成 时 间 并 行 和 空间 并 行 。 时 间 并 行 即 流水 线 技术 ,空间 并 行使 用 多 个 处 理 器 执 
行 并 发 计算 ,并行 计算 科学 中 主要 研究 的 是 空间 上 的 并 行 问 题 。 从 程序 和 算法 设计 人 员 的 
角度 看 ,并 行 计算 又 可 分 为 数据 并 行 和 任务 并 行 。 一 般 来 说 ,因为 数据 并 行 主要 是 将 一 个 大 
任务 化 解 成 相同 的 各 个 子 任务 , 比 任务 并 行 要 容易 处 理 。 

云 计算 是 在 并 行 计算 之 后 产生 的 概念 ,是 由 并 行 计算 和 分 布 式 计算 发 展 而 来 ,两 者 在 很 
多 方面 有 着 共性 。 但 并 行 计算 不 等 于 云 计 算 , 云 计算 也 不 等 同 并 行 计算 。 两 者 区 别 如 下 : 

CL) 云 计算 萌芽 于 并 行 计算 ; 

(2) 并 行 计算 、 高 性 能 计算 、 网 格 计算 等 只 用 于 特定 的 科学 领域 专业 的 用 户 ; 

(3) 并 行 计算 追求 的 高 性 能 ; 

CA) 云 计算 对 于 单 节点 的 计算 能 力 要 求 低 , 主 要 目的 是 资源 共享 。 

随 着 云 计算 的 出 现 , 云 计算 也 可 以 作为 并 行 计算 的 一 种 形式 , 即 通过 云 计算 实 现 并 行 计 
算 。 反 之 , 云 计算 也 包含 了 用 户 资源 请 求 的 并 行 处 理 等 并 行 计算 特征 。 


3.1.4 云 计 算 分 类 


云 计算 按照 提供 服务 的 类 型 可 以 分 为 : 基础 设施 即 服务 (IJaaS) ,平台 即 服 务 (PaaS) 和 
软件 即 服务 (SaaS) 。 如 图 3-6 所 示 ,3 种 类 型 云 服 务 对 应 不 同 的 抽象 层次 。 


应 用 系统 


操作 系统 + 应 用 服务 引擎 


j| 
=. E 
073 : 


(laaS) | (PaaS) (SaaS) 


bE: 
dmm 


Infrastructure as a Service 


以 服务 的 形式 提供 虚拟 硬件 资 
源 ， 如 虚拟 主机 /存储 /网 络 / 数 
无 须 购买 服务 器 、 网 络 设备 、 
存储 设备 ， 只 需 通过 互联 网 租 
赁 即 可 搭建 自己 的 应 用 系统 。 
典型 应 用 : Amazon Web 
Service(AWS) 


Platform as a Service 


提供 应 用 服务 引擎 ， 如 
互联 网 应 用 编程 接口 / 运 | 
行 平 台 等 。 

用 户 基于 该 应 用 服务 引 
5. 可 以 构建 该 类 应 用 。 
典型 应 用 : Google 


AppEngine, Force.com, 
Microsoft Azure 服 务 平 


台 
H 


Software as a Service 


通过 Intemet( 如 浏览 器 ) 
使 用 软件 。 用户 不 必 购 
买 软件 ， 只 需 按 需 租用 
软件 。 

典型 应 用 : Google Doc. 
Salesforce.com, Oracle 
CRM OnDemand, Office 
Live Workspace 


图 3-6 云 计算 分 类 
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1. IaaS: 基础 设施 即 服务 

IaaSCInfrastructure as a Service): 基础 设施 即 服务 。IaaS 是 云 计 算 的 基础 ,为 上 层 云 
计算 服务 提供 必要 的 硬件 资源 ,同时 在 虚拟 化 技术 的 支持 下 ,IaaS 层 可 以 实现 硬件 资源 的 
按 需 配 置 ,创建 虚拟 的 计算 、 存 储 中 心 ,使 得 其 能 够 把 计算 单元 .存储 器 .IO 设备 .带宽 等 计 
算 机 基础 设施 ,集中 起 来 成 为 一 个 虚拟 的 资源 池 对 外 提供 服务 (如 硬件 服务 器 租用 )。 如 
图 3-7 所 示 ,虚拟 化 技术 是 TaaS 的 关键 技术 。 


传统 计算 系统 虚拟 化 计算 系统 
计算 模式 计算 模式 


未 更 改过 的 应 用 


图 3-7 虚拟 化 技术 


许多 大 型 的 电子 商务 企业 ,积累 了 大 规模 IT 系统 设计 和 维护 的 技术 与 经 验 , 同 时 面临 
业务 淡季 时 IT 设备 的 闲置 问题 ,于 是 可 以 将 设备 .技术 和 经 验 作为 一 种 打包 产品 去 为 其 他 
企业 提供 服务 ,利用 闲置 的 IT 设备 创造 价值 。Amazon 是 第 一 家 将 基础 设施 作为 服务 出 售 
的 公司 ,如 图 3-8 所 示 ,Amazon 的 云 计算 平台 弹性 计算 云 EC2(elastic compute cloud) 可 以 
为 用 户 或 开发 人 员 提 供 一 个 虚拟 的 集群 环境 , 既 满 足 了 小 规模 软件 开发 人 员 对 集群 系统 的 
需求 , 减 小 了 维护 的 负担 ,又 有 效 解 决 了 设备 闲置 问题 。 


~，Amazon 公 司 
! 重点 是 提供 
! 弹性 基础 设 
> 施 服务 ， 其 
! 上 的 应 用 由 
| 用 户 灵活 选 
| 择 与 决定 


IaaS 云 计算 平台 
据 中 心虚 拟 化 技术 、 自 动 化 部 署 技术 


— 
amazon.com 
~~ 
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图 3-8 IaaS 云 计算 平台 
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2. PaaS; 平台 即 服务 
PaaS(Platform as a Service): 平台 即 服务 。 一 些 大 型 电子 商务 企业 ,为 支持 搜索 引擎 
和 邮件 服务 等 需要 海量 数据 处 理 能 力 的 应 用 ,开发 了 分 布 式 并 行 技术 的 平台 ,在 技术 和 经 验 
有 一 定 积累 后 ,逐步 将 平台 能 力作 为 软件 开发 和 交付 的 环境 进行 开放 。 如 图 3-9 所 示 ， 
Google 以 自己 的 文件 系统 (GFS) 为 基础 打造 出 的 开放 式 分 布 式 计算 平台 Google App 
Engine. App Engine 是 基于 Google 数据 中 心 的 开发 .托管 Web 应 用 程序 的 平台 。 通 过 该 
f ,程序 开发 者 可 以 构建 规模 可 扩展 的 Web 应 用 程序 ,而 不 用 考虑 硬件 基础 设施 的 管理 。 
App Engine 由 GFS 管理 数据 .MapReduce 处 理 数据 ,并 用 Sawzall 为 编程 语言 提供 接口 ， 
为 用 户 提供 可 靠 并 且 有 效 的 平台 服务 。 


638343 22aa2 z 
自 有 应 用 (搜索 、 Seo] [pum Python) 
Google Docs 等 ) (AppEngine) Google’ 
建 的 是 新 
型 的 互联 
( PaaS 统 一 平台 ) 网 分 布 式 
平台 架构 ， 


PAMINSAN 传统 的 应 
利用 分 布 式 存储 (GFS)、 Arti dh gtable) 、 分 布 式 /并 行 计 算 用 不 能 直 
(MapReduce) 、 AAE AEE EAE BORE 接 移植 到 


实现 统一 高 性 价 比 的 架构 平和 \ 该 架构 上 


Cetttttttttde 


Google 全 球 超过 200 万 台 普通 PC 服务 器 (Google 定 制 ) 
图 3-9 Google 分 布 式 计算 平台 


PaaS 既 要 为 SaaS 层 提供 可 靠 的 分 布 式 编程 框架 ,又 要 为 IaaS 层 提供 资源 调度 ,数据 
管理 ,屏蔽 底层 系统 的 复杂 性 等 ,同时 PaaS 又 将 自己 的 软件 研发 平台 作为 一 种 服务 开放 给 
用 户 。 例 如 ,软件 的 个 性 化 定制 开发 。PaaS 层 需要 具备 存储 与 处 理 海量 数据 的 能 力 , 用 于 
支撑 SaaS 层 提供 的 各 种 应 用 。 因 此 ,PaaS 的 关键 技术 包括 并 行 编程 模型 .海量 数据 库 , 资 
源 调度 与 监控 、 超 大 型 分 布 式 文件 系统 等 分 布 式 并 行 计算 平台 技术 (如 图 3-10 所 示 )。 基 于 
这 些 关 键 技术 ,通过 将 众多 性 能 一 般 的 服务 器 的 计算 能 力 和 存储 能 力 充分 发 挥 和 聚合 起 来 ， 
形成 一 个 高 效 的 软件 应 用 开发 和 运行 平台 ,能够 为 特定 的 应 用 提供 海量 数据 处 理 。 


第 三 方 软件 开发 者 
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Platform 
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图 3-10 PaaS 的 关键 技术 
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3. SaaS; 软件 即 服务 


SaaS(Software as a Service): 软件 即 服务 。 云 计算 要 求 硬件 资源 和 软件 资源 能 够 更 好 
地 被 共享 ,具有 良好 的 伸缩 性 ,任何 一 个 用 户 都 能 够 按照 自己 的 需求 进行 客户 化 配置 而 不 影 
响 其 他 用 户 的 使 用 。 多 租户 技术 就 是 云 计 算 环 境 中 能 够 满足 上 述 需求 的 关键 技术 ,而 软件 
资源 共享 则 是 SaaS 的 服务 目的 ,用 户 可 以 使 用 按 需 定制 的 软件 服务 ,通过 浏览 器 访问 所 需 
的 服务 ,如 文字 处 理 、 照 片 管理 等 ,而 且 不 需要 安装 此 类 软件 。 

SaaS 层 部 署 在 PaaS 和 IaaS 平 台 之 上 ,同时 用 户 可 以 在 PaaS 平 台 上 开发 并 部 署 SaaS 
服务 ,SaaS 面向 的 是 云 计算 终端 用 户 ,提供 基于 互联 网 的 软件 应 用 服务 。 随 着 网 络 技术 的 
成 熟 与 标准 化 , SaaS 应 用 近年 来 发 展 迅速 。 典 型 的 SaaS 应 用 包括 Google Apps, 
Salesforce 等 。 

Google Apps 包括 Google Docs、Gmail 等 大 量 SaaS 应 用 ,Google Apps 将 常用 的 一 些 
传统 的 桌面 应 用 程序 (如 文字 处 理 软件 .电子 邮件 服务 .照片 管理 .通信 录 、 日 程 表 等 ) 迁 移 到 
互联 网 ,并 托管 这 些 应 用 程序 。 用 户 通过 网 络 浏览 器 , 便 可 随时 随地 使 用 Google Apps 提供 
的 应 用 服务 ,而 不 需要 下 载 .安装 或 维护 任何 硬件 或 软件 。 


3.2 云 计算 关键 技术 


3.2.1 体系 结构 


云 计 算 可 以 按 需 提供 弹性 的 服务 ,如 图 3-11 所 示 , 它 的 体系 架构 可 以 大 致 分 为 三 个 层 
次 : 核心 服务 .服务 管理 和 用 户 访问 接口 53 。 核 心服 务 层 将 硬件 基础 设施 .软件 运行 环境 、 
应 用 程序 抽象 成 服务 ,这 些 服 务 具 有 可 靠 性 强 、 可 用 性 高 .规模 可 伸缩 等 特点 ,满足 多 样 化 应 
用 和 需求。 服务 管理 层 为 核心 服务 提供 支持 ,进一步 确保 核心 服务 的 可 靠 性 、 可 用 性 与 安全 
性 。 用 户 访问 接口 层 实现 端 到 云 的 访问 。 

1. 核心 服务 层 

云 计算 核心 服务 通常 可 以 分 为 3 个 子 层 : 基础 设施 即 服务 层 (Infrastructure as a 
Service,IaaS) .平台 即 服务 层 (Platform as a Service. PaaS) 、 软 件 即 服务 层 (Software as a 
Service, SaaS) 。 

IaaS 提供 硬件 基础 设施 部 署 服 务 , 为 用 户 按 需 提 供 实体 或 虚拟 的 计算 、 存 储 和 网 络 等 
资源 。 在 使 用 laas 层 服务 的 过 程 中 ,用 户 需 要 向 IaaS 层 服务 提供 商 提供 基础 设施 的 配置 
信息 ,运行 于 基础 设施 的 程序 代码 以 及 相关 的 用 户 数据 。 为 了 优化 硬件 资源 的 分 配 ,TaaS 
层 引 入 了 虚拟 化 技术 。 借 助 于 Xen, KVM, VMware 等 虚拟 化 工具 ,可 以 提供 可 靠 性 高 .可 
定制 性 强 、 规 模 可 扩展 的 IaaS 层 服务 。 

PaaS 是 云 计算 应 用 程序 运行 环境 ,提供 应 用 程序 部 署 与 管理 服务 。 通 过 PaaS 层 的 软 
件 工具 和 开发 语言 ,应 用 程序 开发 者 只 需 上 传 程序 代码 和 数据 即 可 使 用 服务 ,而 不 必 关 注 底 
层 的 网 络 存储、 操作 系统 的 管理 问题 。 由 于 目前 互联 网 应 用 平台 (如 Facebook, Google, i5] 
宝 等 ) 的 数据 量 日 趋 庞 大 ,PaaS 层 应 当 充分 考虑 对 海量 数据 的 存储 与 处 理 能 力 , 并 利用 有 效 
的 资源 管理 与 调度 策略 提高 处 理 效率 。 


第 3 章 云 计算 原理 与 技术 


RES e a 
接口 层 

E auem ey EEEE E V = 

| MEE i 

| IT 
| 应 用 服务 | … [应 用 服务 | |! | 管理 
DOR | 

1 Eu 4 

| ii i|| ag 
O8 O FARR Paas) 中 | % 
i T 
| a ——— cH 
| 模型 Um 
| 中 | 十 
! 海量 数据 存储 | |! | | QoS 
EET 中 
| ares IS 
ES 
1 | 理 
| | e CODO, s i | 
sss 

| 数据 中 心 物理 设备 | 


图 3-11 云 计算 体系 结构 


SaaS 是 基于 云 计 算 基 础 平台 所 开发 的 应 用 程序 。 企 业 可 以 通过 租用 SaaS 层 服务 解决 
企业 信息 化 问题 ,如 企业 通过 GMail 建立 属于 该 企业 的 电子 邮件 服务 。 该 服务 托管 于 
Google 的 数据 中 心 ,企业 不 必 考 虑 服务 器 的 管理 、 维 护 问 题 。 对 于 普通 用 户 ,SaaS 层 服务 
将 桌面 应 用 程序 迁移 到 互联 网 ,可 实现 应 用 程序 的 泛 在 访问 。 

2. 服务 管理 层 

服务 管理 层 对 核心 服务 层 的 可 用 性 、 可 靠 性 和 安全 性 提供 保障 。 服 务 管理 包括 服务 质 
量 (Quality of Service, QoS) 保 证 和 安全 管理 等 。 此 外 ,数据 的 安全 性 一 直 是 用 户 较 为 关心 
的 问题 。 云 计算 数据 中 心 采用 的 资源 集中 式 管理 方式 使 得 云 计算 平台 存在 单 点 失效 问题 。 
保存 在 数据 中 心 的 关键 数据 会 因为 突 发 事件 (如 地 震 、 断 电 ) 、 病 毒 人 侵 、 黑 客 攻击 而 丢失 或 
泄露 。 根 据 云 计算 服务 特点 ,研究 云 计算 环境 下 的 安全 与 隐私 保护 技术 (如 数据 隔离 .隐私 
保护 访问 控制 等 ) 是 保证 云 计算 得 以 广泛 应 用 的 关键 。 除 了 QoS 保证 、 安 全 管理 外 ,服务 
管理 层 还 包括 计 费 管理 资源 监控 等 管理 内 容 , 这 些 管理 措施 对 云 计 算 的 稳定 运行 同样 起 到 
重要 作用 。 

3. 用 户 访问 接口 层 

用 户 访问 接口 实现 了 云 计算 服务 的 泛 在 访问 ,通常 包括 命令 行 .Web 服务 、Web 门户 等 
形式 。 命 令 行 和 Web 服务 的 访问 模式 既 可 为 终端 设备 提供 应 用 程序 开发 接口 ,又 便于 多 种 
服务 的 组 合 。Web 门户 是 访问 接口 的 另 一 种 模式 。 通 过 Web 门户 , 云 计算 将 用 户 的 桌面 
应 用 迁移 到 互联 网 ,从 而 使 用 户 随时 随地 通过 浏览 器 就 可 以 访问 数据 和 程序 ,提高 工作 
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效率 。 
3.2.2 数据 存储 


云 计 算 环 境 下 的 数据 存储 ,通常 称 之 为 海量 数据 存储 ,或 大 数据 存储 。 大 数据 存储 与 传 
统 的 数据 库 服务 在 本 质 上 有 着 较 大 的 区 别 , 传 统 的 关系 数据 库 中 强调 事务 的 ACID 特性 , 即 
原子 性 (atomicity) , — SUE (consistency) , Bá Ej PE (isolation) MFF A TE (durability) ,对 于 数 
据 的 一 致 性 的 严格 要 求 使 其 在 很 多 分 布 式 场景 中 无 法 应 用 。 在 这 种 情况 下 ,出现 了 基于 
BASE 特性 的 新 型 数据 库 , 即 只 要 求 满足 basically available( 基 本 可 用 ) „soft state( 和 柔性 状 
态 ) 和 eventually consistent( 最 终 一 致 性 )。 从 分 布 式 领域 著名 的 CAP 理论 角度 看 ,ACID 
追求 一 致 性 ,而 BASE 更 加 关注 可 用 性 , 正 是 在 事务 处 理 过 程 中 对 一 致 性 的 严格 要 求 ,使 得 
关系 数据 库 的 可 扩展 性 极其 有 限 。 

面 对 这 些 挑战 ,以 Google 为 代表 的 一 批 技术 公司 纷纷 推出 自己 的 解决 方案 。BigTable 
是 Google 早期 开发 的 数据 库 系 统 , 它 是 一 个 多 维 稀 朴 排序 表 , 由 行 和 列 组 成 ,每 个 存储 单元 
都 有 一 个 时 间 戳 ,形成 三 维 结构 。 不 同 的 时 间 对 同一 个 数据 单元 的 多 个 操作 形成 的 数据 的 
多 个 版 本 由 时 间 戳 区 分 。 除 了 BigTable 外 , Amazon 公司 的 Dynamo 和 Yahoo 公司 的 
PNUTS 也 都 是 非常 具有 代表 性 的 系统 。Dynamo 综合 使 用 了 键 值 存储 改进 的 分 布 式 哈 希 
表 (DHT) 向量 时 钟 (vector clock) 等 技术 实现 了 一 个 完全 的 分 布 式 .去 中 心 化 的 高 可 用 系 
统 。PNUTS 是 一 个 分 布 式 数 据 库 ,在 设计 上 使 用 弱 一 致 性 达到 高 可 用 性 的 目标 ,主要 的 服 
务 对 象 是 相对 较 小 的 记录 ,例如 在 线 的 大 量 单 个 记录 或 者 小 范围 记录 集合 的 读 和 写 访 问 ,不 
适合 存储 大 文件 、 流 媒体 等 。BigTable.Dynamo、PNUTS 等 的 成 功 促使 人 们 开始 对 关系 数 
据 库 进行 反思 ,由 此 产生 了 一 批 未 采用 关系 模型 数据 库 , 这 些 方案 现在 被 统一 称 为 NoSQL 
(Not only SQL). NoSQL 并 没有 一 个 准确 的 定义 ,但 一 般 认 为 NoSQL 数据 库 应 当 具 有 以 
下 的 特征 : 模式 自由 (schema-free)、 支 持 简易 备份 (easy replication support) , fiaj Jt [19 Jj JH] fé 
序 接口 (simple APD ,最 终 一 致 性 (或 者 说 支持 BASE 特性 ,不 支持 ACID) 支持 海量 数据 
(huge amount of data). 

NoSQL 仅仅 是 一 个 概念 ,NoSQL 数据 库 根据 数据 的 存储 模型 和 特点 分 为 很 多 种 类 。 
表 3-1 是 NoSQL 数据 库 的 一 个 基本 分 类 ,当然 , 表 中 的 NoSQL 数据 库 类 型 的 划分 并 不 是 
绝对 的 ,只 是 从 存储 模型 上 进行 的 大 体 划 分 。 而 且 , 它 们 之 间 没 有 绝对 的 分 界 , 也 有 交差 的 
情况 , 例如 Tokyo Cabinet/Tyrant 的 Table 类 型 存储 ,就 可 以 理解 为 是 文档 型 存储 ， 
Berkeley DB XML 数据 库 是 基于 Berkeley DB 之 上 开发 的 。 


表 3-1 NoSQL 数据 库 分 类 


类 别 P 品 特 性 
HBase 顾名思义 ,是 按 列 存储 数据 的 。 最 大 的 特点 是 方便 存储 
列 存储 Cassandra 结构 化 和 半 结 构 化 数据 ,方便 做 数据 压缩 ,对 某 一 列 或 者 
Hypertable 某 几 列 的 查询 有 非常 大 的 IO 优势 
MongoDB 文档 存储 一 般 用 类 似 json 的 格式 存储 ,存储 的 内 容 是 文 
文档 存储 CouchDB 档 型 的 。 这 样 也 就 有 机 会 对 某 些 字段 建立 索引 ,实现 关 


系数 据 库 的 某 些 功能 


第 3 章 云 计算 原理 与 技术 


续 表 
E E) y 品 特 性 
Tokyo Cabinet/Tyrant 
key-value 存储 Berkeley DB 可 以 通过 key 快速 查询 到 其 value。 一 般 来 说 ,存储 不 管 
MemcacheDB value 的 格式 , 照 单 全 收 。(Redis 包含 了 其 他 功能 ) 
Redis 
图 存储 Neo4] 图 形 关 系 的 最 佳 存储 。 使 用 传统 关系 数据 库 解决 的 话 性 
FlockDB 能 低下 ,而且 设 计 使 用 不 方便 
对 象 存储 db4o 通过 类 似 面向 对 象 语 言 的 语法 操作 数据 库 , 通 过 对 象 的 
Versant 方式 存 取 数 据 
XML 数据 库 Berkeley DB XML 高 效 地 存储 XML 数据 ,并 支持 XML 的 内 部 查询 语法 ， 
BaseX 比如 XQuery, Xpath 
1, 数据 中 心 


实现 云 计 算 环境 下 数据 存储 的 基础 是 由 数 以 万 计 的 廉价 存储 设备 所 构成 的 庞大 的 存储 
中 心 ,这 些 异 构 的 存储 设备 通过 各 自 的 分 布 式 文件 系统 将 分 散 的 、 低 可 靠 的 资源 聚合 为 一 个 
具有 高 可 靠 性 ,高 可 扩展 性 的 整体 ,在 此 基础 上 构建 面向 用 户 的 云 存储 服务 。 如 图 3-12 所 
IR ,数据 中 心 是 实现 云 计 算 海 量 数据 存储 的 基础 ,主要 包括 各 种 存储 设备 ,以 及 对 各 种 异 构 


的 存储 设备 进行 管理 的 分 布 式 文件 系统 。 
访问 层 


服务 接口 ) 


i 


Data Center 


存储 管理 
分 布 式 文件 系统 
fi 
虚拟 化 设备 


3342 云 计算 平台 存储 结构 


2. 分 布 式 文件 系统 
分 布 式 文件 系统 (Distributed File System,DFS) 是 云 存储 的 核心 ,一般 作为 云 计算 的 数 
据 存储 系统 ,对 DFS 的 设计 既 要 考虑 系统 的 IO 性 能 ,又 要 保证 文件 系统 的 可 靠 性 与 可 用 
性 。 文件 系统 是 支撑 上 层 应 用 的 基础 ,Google 自行 研发 的 GFS(Google File System) 是 一 
种 构建 在 大 量 服务 器 之 上 的 可 扩展 的 分 布 式 文件 系统 ,采用 主 从 架构 ,通过 数据 分 块 ,追加 
更 新 等 方式 实现 海量 数据 的 高 效 存储 。 
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Google 以 论文 的 形式 公开 其 在 云 计算 领域 研发 的 各 种 技术 ,使 得 以 GFS 和 Bigtable 
为 代表 的 一 系列 大 数据 处 理 技术 被 广泛 了 解 并 得 到 应 用 ,并 催生 出 以 Hadoop 为 代表 的 一 
系列 云 计 算 开 源 工具 。 而 GFS 类 的 文件 系统 主要 针对 较 大 的 文件 设计 的 ,而 在 一 些 场景 系 
统 需要 频繁 地 读 写 海量 小 文件 ,此 时 GFS 类 文件 系统 因为 频繁 读 取 元 数据 等 原因 , 显得 效 
率 很 低 ,Facebook 推出 的 专门 针对 海量 小 文件 的 文件 系统 Haystack ,通过 多 个 逻辑 文件 共 
享 同 一 个 物理 文件 ,增加 缓存 层 ,部 分 元 数据 加 载 到 内 存 等 方式 有 效 解决 了 Facebook 海量 
图 片 存储 问题 。 淘 宝 推 出 的 类 似 的 文件 系统 TFS(Tao File System) ,通过 将 小 文件 合并 成 
大 文件 ,文件 名 隐 含 部 分 元 数据 等 方式 实现 了 海量 小 文件 的 高 效 存储 。 此 外 被 广泛 使 用 的 
还 有 Lustre, Fast DFS, HDFS fll NFS 等 ,分 别 适用 于 不 同 应 用 环境 下 的 分 布 式 文件 系统 。 


3.2.3 计算 模型 


云 计算 的 计算 模型 是 一 种 可 编程 的 并 行 计算 框架 ,需要 高 扩展 性 和 容错 性 支持 。PaaS 平 
台 不 仅 要 实现 海量 数据 的 存储 ,而 且 要 提供 面向 海量 数据 的 分 析 处 理 功能 。 由 于 PaaS 平 台 部 
署 于 大 规模 硬件 资源 上 ,所 以 海量 数据 的 分 析 处 理 需 要 抽象 处 理 过 程 , 并 要 求 其 编程 模型 支持 
规模 扩展 ,屏蔽 底层 细节 并 且 简 单 有 效 。 目 前 比较 成 熟 的 技术 有 MapReduce, Dryad 等 。 

MapReduce 是 Google 提出 的 并 行程 序 编程 模型 ,运行 于 GFS 之 上 。MapReduce 的 设 
计 思 想 在 于 将 问题 分 而 治之 ,首先 将 用 户 的 原始 数据 源 进行 分 块 ,然后 分 别 交 给 不 同 的 
Map 任务 去 处 理 。Map 任务 从 输入 中 解析 出 键 / 值 对 (key/value) 集 合 ,然后 对 这 些 集合 执 
行 用 户 自行 定义 的 Map 函数 得 到 中 间 结 果 , 并 将 该 结果 写 和 人 本 地 硬盘 。Reduce 任务 从 硬 
盘 上 读 取 数据 之 后 会 根据 key 值 进行 排序 ,将 具有 相同 key 值 的 数据 组 织 在 一 起 。 最 后 用 
户 自 定义 的 Reduce 函数 会 作用 于 这 些 排 好 序 的 结果 并 输出 最 终结 果 。 图 3-13 给 出 
MapReduce 任务 调度 过 程 。 
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中 间 键 值 对 
图 3-13 MapReduce 的 任务 调度 
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第 一 步 : 用 户 程序 首先 调用 的 MapReduce 库 将 输入 文件 分 成 M 个 数据 片段 ,然后 用 
户 程序 在 集群 中 创建 大 量 的 程序 副本 。 

第 二 步 : 程序 副本 master 将 Map 任务 和 Reduce 任务 分 配给 worker 程序 。 

第 三 步 : 被 分 配 Map 任务 的 worker 程序 读 取 相 关 的 输入 数据 片段 。 

第 四 步 : Map 任务 的 执行 结果 写 入 到 本 地 磁盘 上 。 

BEF: Reduce worker 程序 使 用 RPC 从 Map worker 所 在 主机 磁盘 上 读 取 这 些 缓存 
数据 。 

第 六 步 : Reduce worker 程序 遍历 排序 后 的 中 间 数 据 ,Reduce 函数 的 输出 被 追加 到 所 
属 分 区 的 输出 文件 。 

第 七 步 : 当 所 有 的 Map 和 Reduce 任务 都 完成 之 后 ,master 唤醒 用 户 程序 。 在 这 个 时 
候 , 在 用 户 程序 里 的 对 MapReduce 调用 才 返 回 。 

与 Google 的 MapReduce 相似 ,2010 年 12 月 21 日 微软 公司 推出 了 Dryad 的 公测 版 ， 
Dryad 也 通过 分 布 式 计算 机 网 络 计 算 海 量 数据 ,成 为 谷歌 MapReduce 分 布 式 数据 计算 平台 
的 竞争 对 手 。 由 于 许多 问题 难以 抽象 成 MapReduce 模型 ,Dryad 采用 基于 有 向 无 环 图 
DAG 的 并 行 模型 ,在 Dryad 中 ,每 一 个 数据 处 理 作业 都 由 DAG 表示 ,图 中 的 每 一 个 节点 表 
示 需 要 执行 的 子 任务 ,节点 之 间 的 边 表示 2 个 子 任务 之 间 的 通信 ,Dryad 任务 结构 如 图 3-14 
所 示 。Dryad 可 以 直观 地 表示 出 作业 内 的 数据 流 。 基 于 DAG 优化 技术 ,Dryad 可 以 更 加 简 
单 高 效 地 处 理 复杂 流程 。 同 MapReduce 相似 ,Dryad 为 程序 开发 者 屏蔽 了 底层 的 复杂 性 ， 
并 可 在 计算 节点 规模 扩展 时 提高 处 理性 能 。 


Q Q Q Q Input files 
R R R R 
es) Stage 


Vertices 


rocesses) 
Output files C) (p ) 


3-14. Dryad 任务 结构 


3.2.4 资源 调度 


海量 数据 处 理 平台 的 大 规模 性 给 资源 管理 与 调度 带 来 挑战 。 云 计算 平台 的 资源 调度 包 
括 异 构 资源 管理 ,资源 合理 调度 与 分 配 等 。 

云 计 算 平台 包含 大 量 文件 副本 ,对 这 些 副 本 的 有 效 管理 是 PaaS 层 保证 数据 可 靠 性 的 
基础 ,因此 一 个 有 效 的 副本 策略 不 但 可 以 降低 数据 丢失 的 风险 ,还 能 优化 作业 完成 时 间 。 

PaaS 层 的 海量 数据 处 理 以 数据 密集 型 作业 为 主 ,其 执行 能 力 受 到 IO 带宽 的 影响 。 网 
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络 带 宽 是 计算 集群 (计算 集群 既 包 括 数据 中 心中 物理 计算 节点 集群 ,也 包括 虚拟 机 构建 的 集 
群 ) 中 的 急 缺 的 资源 : 

D 云 计算 数据 中 心 考虑 成 本 因素 ,很 少 采用 高 带宽 的 网 络 设备 。 

2) IaaS 层 部 署 的 虚拟 机 集群 共享 有 限 的 网 络 带宽 。 

3) 海量 数据 的 读 写 操作 占用 了 大 量 带宽 资源 。 因 此 Paas 层 海量 数据 处 理 平台 的 任务 
调度 需要 考虑 网 络 带宽 因素 。 

目前 对 于 云 计算 资源 管理 方面 进行 的 研究 主要 在 降低 数据 中 心 能 耗 ,提高 系统 资源 利 
用 率 等 方面 ,例如 通过 动态 调整 服务 器 CPU 的 电压 或 频率 来 节省 电能 ,关闭 不 需要 的 服务 
器 资源 实现 节能 等 ; 也 有 对 虚拟 机 放置 策略 的 算法 ,实现 负载 低 峰 或 高 峰 时 ,通过 有 效 放置 
虚拟 机 达到 系统 资源 的 有 效 利 用 。 研 究 有 效 的 资源 管理 与 调度 技术 可 以 提高 MapReduce 
等 PaaS 层 海量 数据 处 理 平 台 的 性 能 。 


3.2.5 虚拟 化 


云 计算 的 发 展 离 不 开 虚 拟 化 技术 。 虚 拟 化 技术 可 以 使 物理 上 的 单 台 服务 器 ,被 虚拟 成 
他 辑 上 的 多 台 服 务 器 环境 ,可 以 修改 单 台 虚拟 机 的 分 配 CPU, 内 存 空 间 , 硬 盘 等 ,每 台 虚 拟 
机 人 逻辑 上 可 以 被 单独 作为 服务 器 使 用 。 通 过 这 种 分 割 行为 ,将 闲置 或 处 于 低 峰 的 服务 器 紧 
竣 地 使 用 起 来 ,数据 中 心 为 云 计算 提供 了 大 规模 资源 ,通过 虚拟 化 技术 实现 基础 设施 服务 的 

需 分 配 ,虚拟 化 是 TaaS 层 的 重要 组 成 部 分 ,也 是 云 计算 的 最 重要 特点 。 虚 拟 化 技术 可 以 
提供 以 下 特点 。 

D 资源 共享 。 通 过 虚拟 机 封装 用 户 各 自 的 运行 环境 ,有 效 实现 多 用 户 分 享 数据 中 心 
资源 。 

2) 资源 定制 。 用 户 利用 虚拟 化 技术 ,配置 私有 的 服务 器 ,指定 所 需 的 CPU 数目 、 内 存 
容量 、 磁 盘 空 间 ,实现 资源 的 按 需 分 配 。 

30 细 粒 度 资 源 管理 。 将 物理 服务 器 拆 分 成 若干 虚拟 机 ,可 以 提高 服务 器 的 资源 利用 
5 ,减少 浪费 ,而 且 有 助 于 服务 器 的 负载 均衡 和 节能 。 

基于 以 上 特点 ,虚拟 化 技术 成 为 实现 云 计 算 资源 池 化 和 按 需 服务 的 基础 。 为 了 进一步 
满足 云 计 算 弹 性 服务 和 数据 中 心 自治 性 的 需求 ,需要 虚拟 机 快速 部 署 和 在 线 迁 移 技术 的 
支持 。 

传统 的 虚拟 机 部 署 需 要 经 过 创建 虚拟 机 、 安 装 操作 系统 与 应 用 程序 ,配置 虚拟 机 属性 以 
及 应 用 程序 运行 环境 、 启 动 虚拟 机 四 个 阶段 ,通过 修改 虚拟 机 配置 (如 增 减 CPU 数目 、 磁 盘 
空间 、 内 存 容量 等 ) 可 以 改变 单 台 虚拟 机 性 能 ,但 这 个 过 程 通常 部 署 时 间 较 长 ,不 能 满足 云 计 
算 弹 性 服务 的 要 求 , 为 此 ,有 的 学 者 提出 基于 进程 原理 的 虚拟 机 部 署 方式 ,利用 父 虚拟 机 迅 
速 克隆 出 大 量子 虚拟 机 ,就 像 启动 很 多 子 进 程 或 线程 那样 快速 部 署 虚拟 机 。 利 用 分 布 式 环 
境 下 的 并 行 虚拟 机 fork 技术 ,甚至 可 以 在 1 秒 内 完成 32 台 虚 拟 机 的 部 署 。 

虚拟 机 在 线 迁 移 是 指 虚 拟 机 在 运行 状态 下 从 一 人 台 物 理 机 移动 到 另 一 台 物 理 机 。 利 用 虚 
拟 机 在 线 迁 移 技术 ,可 以 在 不 影响 服务 质量 的 情况 下 优化 和 管理 数据 中 心 , 当 原始 虚拟 机 发 
生 错 误 时 ,系统 可 以 立即 切换 到 备份 虚拟 机 ,而 不 会 影响 到 关键 任务 的 执行 ,保证 了 系统 的 
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可 靠 性 ; 在 服务 器 负载 高 峰 时 期 ,可 以 将 虚拟 机 切换 至 其 他 低 峰 服务 器 从 而 达到 负载 均衡 ; 
还 可 以 在 服务 器 集群 处 于 低 峰 期 时 ,将 虚拟 机 集中 放置 ,达到 节能 目的 。 因 此 虚拟 机 在 线 迁 
移 技 术 对 云 计算 平台 有 效 管理 具有 重要 意义 。 


3.3 Googe RHAH 


Google 公司 有 一 套 专属 的 云 计算 平台 ,这 个 平台 先是 为 Google 最 重要 的 搜索 应 用 提 
供 服务 ,现在 已 经 扩展 到 其 他 应 用 程序 。Google 的 云 计 算 基 础 架构 模式 包括 4 个 相互 独立 
又 紧密 结合 在 一 起 的 系统 : Google File System 分 布 式 文件 系统 5 ,针对 Google 应 用 程序 
的 特点 提出 的 MapReduce 编程 模式 ,分布 式 的 锁 机 制 Chubby 以 及 Google 开发 的 模型 简 
化 的 大 规模 分 布 式 数据 库 BigTable。 


3.3.1 GFS 


网 页 搜索 业务 需要 海量 的 数据 存储 ,同时 还 需要 满足 高 可 用 性 、 高 可 靠 性 和 经 济 性 等 要 
求 。 为 此 ,Google 基于 以 下 几 个 假设 开发 了 分 布 式 文件 系统 一 一 Google File System: 

1) 硬件 故障 是 常态 ,充分 考虑 到 大 量 节 点 的 失效 问题 ,需要 通过 软件 将 容错 以 及 自动 
恢复 功能 集成 在 系统 中 。 

2) 支持 大 数据 集 , 系 统 平 台 需 要 支持 海量 大 文件 的 存储 ,文件 通常 大 小 以 GB 计 , 并 包 
含 大 量 小 文件 。 

3) 一 次 写 人 、 多 次 读 取 的 处 理 模式 ,充分 考虑 应 用 的 特性 ,增加 文件 追加 操作 ,优化 顺 
序 读 写 速度 。 

4) 高 并 发 性 ,系统 平台 需要 支持 多 个 客户 端 同时 对 某 一 个 文件 的 追加 写 人 操作 ,这 些 
客户 端 可 能 分 布 在 几 百 个 不 同 的 节点 上 ,同时 需要 以 最 小 的 开销 保证 写 入 操作 的 原子 性 。 

图 3-15 给 出 了 Google File System 的 系统 架构 。 如 图 所 示 , 一 个 GFS 集群 包含 一 个 主 
服务 器 和 多 个 块 服务 器 ,被 多 个 客户 端 访问 。 大 文件 被 分 割 成 固定 尺寸 的 块 , 块 服务 器 把 块 
作为 Linux 文件 保存 在 本 地 硬盘 上 ,并 根据 指定 的 块 句柄 和 字 节 范围 读 写 块 数据 。 为 了 保 
证 可 靠 性 ,每 个 块 被 缺 省 保存 3 个 备份 。 主 服务 器 管理 文件 系统 所 有 的 元 数据 ,包括 名 字 空 
间 、 访 问 控制 ,文件 到 块 的 映射 . 块 物理 位 置 等 相关 信息 。 通 过 服务 器 端 和 客户 端的 联合 设 
计 ,GFS 对 应 用 支持 达到 性 能 与 可 用 性 最 优 。GFS 是 为 Google 应 用 程序 本 身 而 设计 的 ,在 
内 部 部 署 了 许多 GFS 集群 。 有 的 集群 拥有 超过 1000 个 存储 节点 ,超过 300TB 的 硬盘 空 
Ti] ,被 不 同 机 器 上 的 数 百 个 客户 端 连 续 不 断 地 频繁 访问 着 。 


3.3.2 MapReduce 


Google 构造 MapReduce 编程 规范 简化 分 布 式 系统 的 编程 。 应 用 程序 编写 人 员 只 需 将 
精力 放 在 应 用 程序 本 身 , 而 关于 集群 的 处 理 问 题 ,包括 可 靠 性 和 可 扩展 性 , 则 交 由 平台 来 处 
理 。MapReduce 通过 “Map( 映 射 )” 和 “Reduce( 化 简 )” 两 个 简单 的 概念 构成 运算 基本 单元 ， 
用 户 只 需 提供 自己 的 Map 函数 以 及 Reduce 函数 即 可 并 行 处 理 海量 数据 。 为 了 进一步 理解 
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Google File System Architecture 


File name, 
Application chunk index 
GFS Master -= /foo/bar 
GFS Client <> File namespace 4 
ien 
{Chunk handle, chunk! H chunk 2eff() 
locations 1 
1 
1 
/ 
/ 
D 
/ 
Instructions to chunkserver i 
Chunk handle, byte range Chunkserver state 
—— 
GFS chunkserver GFS chunkserver 
Chunk data 
Linux file system Linux file system 


= Data messages 
—— Control messages zu A B 


图 3-15 Google File System 的 系统 架构 


MapReduce 的 编程 方式 ,下 面 给 出 一 个 基于 MapReduce 编程 方式 的 程序 伪 代 码 。 程 序 功 
能 是 统计 文本 中 所 有 单词 出 现 的 次 数 。 


map(String input key, String input value): 
// input key: document name 
// input value: document contents 
for each word w in input value: 
EnitIntermediate(w, "1"); 
reduce(String output key, Interator intermediate values): 
// output key: a word 
// output values: a list of counts 
int result - 0; 
for each v in intermediate values: 
result += ParseInt(v); 
Enit(AsString(result)); 


在 Map 函数 中 ,用 户 的 程序 将 文本 中 所 有 出 现 的 单词 都 按照 出 现 计数 1( 以 Key-Value 
对 的 形式 ) 发 射 到 MapReduce 给 出 的 一 个 中 间 临 时 空间 中 。 通 过 MapReduce 中 间 人 处 理 过 
程 ,将 所 有 相同 的 单词 产生 的 中 间 结 果 分 配 到 同样 一 个 Reduce 函数 中 。 而 每 一 个 Reduce 
函数 则 只 需 把 计数 累加 在 一 起 即 可 获得 最 后 结果 。 

图 3-16 给 出 了 MapReduce 执行 过 程 ,分 为 Map 阶段 及 Reduce 两 个 阶段 ,都 使 用 了 集 
群 中 的 所 有 节点 。 在 两 个 阶段 之 间 还 有 一 个 中 间 的 分 类 阶段 ,即将 包含 相同 的 key 的 中 间 
结果 交 给 同一 个 Reduce 函数 执行 。 
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Input 


ERINNMEE 


Intermediate | kl:v kl:v K2:v kl:v | k3: k4:v kS:v k4:v kl:v k3:v 


Group by key 


Grouped | kl:v,v,v,v | k2:v = VV | k4:v,v,v 


AIER: 


图 3-16 MapReduce 处 理 程序 的 执行 过 程 (M 代表 Map 函数 ,R 代表 Reduce 函数 ) 


Output 


3.3.3 BigTable 


由 于 Google 的 许多 应 用 (包括 Search History、Maps、Orkut 和 RSS 阅读 器 等 ) 需 要 管 
理 大 量 的 格式 化 及 半 格 式 化 数据 ,上 述 应 用 的 共同 特点 是 需要 支持 海量 的 数据 存储 , 读 取 后 
进行 大 量 的 分 析 ,数据 的 读 操 作 频 率 远大 于 数据 的 更 新 频率 等 ,为 此 Google 开发 了 弱 一 臻 
性 要 求 的 大 规模 数据 库 系统 一 一 BigTable。 

BigTable 针对 数据 读 操作 进行 了 优化 ,采用 基于 列 存储 的 分 布 式 数据 管理 模式 以 提高 
数据 读 取 效 率 。BigTable 的 基本 元 素 是 行列 .记录 板 和 时 间 戳 , 行 键 和 列 键 都 是 字 节 串 ， 
时 间 截 是 64 位 整 型 ,可 以 用 (row:string，. column; string. time:int64)— string 表示 一 条 键 
值 对 记录 。 其 中 ,记录 板 Table 就 是 一 段 行 的 集合 体 。 

图 3-17 是 BigTable 的 一 个 例子 Webtable. Æ Webtable 存储 了 大 量 的 网 页 和 相关 信 
息 ,在 Webtable, 每 一 行 存储 一 个 网 页 ,其 反 转 的 url 作为 行 键 ,比如 “com. google. maps”, 
反 转 的 原因 是 为 了 让 同一 个 域名 下 的 子 域名 网 页 能 聚集 在 一 起 。 


"contents: "anchor:ennsi.com" —— "anchor:my.look.ca" 
| 


"com.enn. www" 


图 3-17 BigTable 的 一 个 例子 Webtable 


BigTable 中 的 数据 项 按照 行 关 键 字 的 字典 序 排 列 , 行 键 可 以 是 任意 字 节 串 , 通 常 有 
10 一 100B。BigTable 按照 行 键 的 字典 序 存储 数据 。BigTable 的 表 会 根据 行 键 自动 划分 为 


云 计 算 与 大 数据 技术 理论 及 应 


64 


F Ctablet) , 片 是 负载 均衡 的 单元 。 最 初 表 都 只 有 一 个 片 ,但 随 着 表 不 断 增 大 , 片 会 自动 分 
裂 , 片 的 大 小 控制 在 100~~200MB。 行 是 表 的 第 一 级 索引 ,可 以 把 该 行 的 列 、 时 间 和 值 看 成 
一 个 整体 ,简化 为 一 维 键 值 映射 ,类 似 于 : 


table( 
"com, cnn, www" : (sth.), // 一 行 , 行 键 是 com. cnn. www 
"com. bbc. www" : {sth. }, 
"com. google. www" : {sth. } 


列 是 第 二 级 索引 ,每 行 拥有 的 列 是 不 受 限制 的 ,可 以 随时 增加 减少 。 为 了 方便 管理 , 列 
被 分 为 多 个 列 族 (column family, 是 访问 控制 的 单元 ) ,一 个 列 族 里 的 列 一 般 存 储 相同 类 型 
的 数据 。 一 行 的 列 族 很 少 变化 ,但 是 列 族 里 的 列 可 以 随意 添加 删除 。 列 键 按照 family: 
qualifier 格式 命名 的 ,如 果 将 列 的 值 和 时 间 看 作 一 个 整体 ,那么 table 可 以 表示 为 二 维 键 值 


映射 ,类 似 于 : 
table{ 

"com. cnn. www" : { /一 行 
"contents:" : (sth. ), // — 5], family 为 contents, qualifier 为 空 
"anchor:cnnsi. con" : (sth. ), // 一 列 , family Jj anchor, qualifier 为 cnnsi. com 
"anchor:ny. look. ca" : (sth. ) 

n 

"com. bbc. www" : ( // 一 行 


"contents:":{sth. } 

Lh 

"hk. com. google. www" : { 
"contents:" : (sth. ), 
"anchor: youtube. con" : (sth. ) 

) 

"con. bing.cn" : (sth.) 

) 


也 可 以 将 family 当 作 一 层 新 的 索引 ,类 似 于 ， 


table( 
"con. cnn. www" : { H-A 
"contents" : (sth. }, //family Jj contents 
"anchor" :( 


"cnnsi.con" : (sth. } 
"ny. look. ca": {sth. } 
n //— 9|, family 为 anchor 
Lh 
"com. bbc. www" : ( MR 
"contents" : (sth. ) 
Ln 
"hk. com. google. www" : ( 
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"contents:" : (sth. ), 
"anchor" :( 
"youtube. con" : (sth. ) 
! 
Lh 
"com. bing.cn" : {sth. } 
} 


时 间 惟 是 第 三 级 索引 。BigTable 允许 保存 数据 的 多 个 版 本 ,版 本 区 分 的 依据 就 是 时 间 
Eo IPERE Ah BigTable 赋值 ,代表 数据 进入 BigTable 的 准确 时 间 ,也 可 以 由 客户 端 赋 
值 。 数 据 的 不 同 版 本 按照 时 间 戳 降序 存储 ,因此 先 读 到 的 是 最 新 版 本 的 数据 。 我 们 加 入 时 
间 截 后 ,就 得 到 了 BigTable 的 完整 数据 模型 ,类似 于 : 


table( 
"con.cnn.www" : ( // 一 行 
"contents:":{ 
tl:"<html >…"v //t1 时 刻 的 网 页 内 容 
t2:"« html >- ", //t2 时 刻 的 网 页 内 容 
t3:"< html >..." //t3 时 刻 的 网 页 内 容 
h // 一 列 ,family JJ contents, qualifier 为 空 


"anchor:cnnsi.com":{sth.}, // 一 列 ,family Jy anchor, qualifier 34 cnnsi. com 
"anchor:ny. look. ca" : (sth. } 

}, 

"com. bbc. www" : ( M-i 
"contents:":{sth. } 

} 

"hk. com. google. www" : ( 
"contents:" : (sth. ), 
"anchor: youtube. con" : (sth. ) 

)h 

"com. bing.cn" : (sth.] 

) 


图 3-17 中 的 列 族 “anchor” 保 存 了 该 网 页 的 引用 站 点 (比如 引用 了 CNN 主页 的 站 点 )， 
qualifier 是 引用 站 点 的 名 称 ,而 数据 是 链接 文本 ; 列 族 *contents” 保 存 的 是 网 页 的 内 容 , 这 
个 列 族 只 有 一 个 空 列 *contents:”。“contents:" 列 下 保存 了 网 页 的 三 个 版 本 ,可 以 用 ("com. 
cnn, www", "contents:", 15) 找 到 CNN 主页 在 tl 时 刻 的 内 容 。 

BigTable 系统 依赖 于 集群 系统 的 底层 结构 ,一 个 是 分 布 式 集群 任务 调度 器 ,一 个 是 前 
述 的 GFS 文件 系统 ,还 有 一 个 分 布 式 锁 服务 Chubby。 如 图 3-18 所 示 ,Chubby 是 一 个 非常 
健壮 的 粗 粒度 锁 ,BigTable 使 用 Chubby 保存 Root Tablet 的 指针 ,并 使 用 一 台 服 务 器 作为 
主 服务 器 ,用 来 保存 和 操作 元 数据 。 当 客户 端 读 取 数 据 时 ,用 户 首先 从 Chubby Server 中 获 
得 Root Tablet 的 位 置信 息 ,并 从 中 读 取 相应 的 元 数据 表 Metadata Tablet 的 位 置信 息 , 接 
着 从 Metadata Tablet 中 读 取 包 含 目标 数据 位 置信 息 的 User Table 的 位 置信 息 , 然 后 从 该 
User Table 中 读 取 目 标 数据 的 位 置信 息 项 。 
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User Tablet 


5 servers of a Chubby cell Other MeteData 
Tablet 


Client 
application 


Root Tablet /| ~~~ | 


Client cwbyl/ | C)} Yo 


application library | | SZ | 一 


client processes 


图 3-18 Chubby 的 结构 


3.3.4 Dremel 


Dremel!'? ££ Google 的 “交互 式 ” 数 据 分 析 系 统 。 可 以 组 建成 规模 上 千 的 集群 ,处 理 PB 
级 别 的 数据 。MapReduce 处 理 一 个 数据 ,需要 分 钟 级 的 时 间 。 作 为 MapReduce 的 发 起 人 ， 
Google 开发 了 Dremel, 将 处 理 时 间 缩 短 到 秒 级 ,作为 MapReduce 的 交互 式 查 询 能 力 不 足 的 
有 力 补充 。 

Dremel 的 数据 模型 是 嵌 套 的 ,用 列 式 存 储 , 并 结合 了 Web 搜索 和 并 行 DBMS 的 技术 ， 
建立 查询 树 ,将 一 个 巨大 的 复杂 的 查询 ,分割 成 较 小 较 简单 的 查询 ,大 事 化 小 ,小 事 化 了 ,能 
并 发 地 在 大 量 节点 上 跑 , 如 图 3-19 Bros ,在 这 种 按 记 录 存 储 的 模式 中 ,一 个 记录 的 多 列 是 连 
续 写 在 一 起 的 , 按 列 存储 可 以 将 数据 按 列 展开 成 查询 树 ,扫描 时 可 以 仅仅 扫描 A. B. C. 分 支 
而 不 用 扫描 A. E. 2X A. B. D. 分 支 , 其 次 .Dremel 提供 SQL-like 接口 ,提供 简单 的 SQL 查询 
功能 ,可 以 将 SQL 语句 转换 成 MapReduce 任务 执行 。 

A 


Ec 
^ fy Bi E 
Gc SB r B 
"n B 
3 D 
aoe T» 7 
record- column- rz 
oriented oriented 


3-19 Google Dremel 数据 模型 


图 3-20 定义 了 一 个 组 合 类 型 Document。 有 一 个 必 选 列 DocId, 可 选 列 Links. A — 
个 数组 列 Name。 可 以 用 Name. Language. Code 表示 Code 列 。 

这 种 数据 格式 是 语言 无 关 、 平 台 无 关 的 。 可 以 使 用 Java 写 MapReduce 程序 以 生成 这 
个 格式 ,然后 用 C++ 读 取 。 在 这 种 列 式 存储 中 ,能 够 快速 通用 处 理 也 是 非常 重要 的 。 图 3-21 
是 数据 在 Dremel 中 的 实际 存储 格式 。 

如 果 是 关系 型 数据 ,而 不 是 嵌 套 的 结构 ,存储 的 时 候 , 可 以 将 每 一 列 的 值 直 接 排列 下 来 ， 
不 用 引入 其 他 概念 ,也 不 会 丢失 数据 。 对 于 嵌 套 的 结构 ,还 需要 两 个 变量 R (Repetition 
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message Document { 


Docld: 10 n required int64 Docld: 
Links optional group Links { 
Forward: 20 repeated int64 Backward; 
Forward: 40 repeated int64 Forward; } 
Forward: 60 repeated group Name { 
Name repeated group Language ( 
Language > required string Code; 
Code: Les optional string Country; } 
Country: ‘us optional string Url ; }} 
Language 
Code: 'en' 
Url: 'http://A’ Docld: 20 n 
Name Links 
Url: 'http://B' Backward: 10 
Name Backward: 30 
Language Forward: 80 
Code: 'en-gb' Name 
Country: 'gb' Url: 'http://C' 
3-20 n.r. 数据 结构 
Docld ] Name.Url ] [ Links.Forward [ Links.Backward 
value r d| f value r d) | value r daf | vale r a 
10 [o o| | mpwa [o 2 20 [o 2] [nuk [o 1 
20 0 0 http//B | 1 2 40 1 2 10 0 2 
NULL |1 1 60 12 30 1 2 
http//C |0 2 80 0 2 
Name.Language.Code Name.Language.Country 
value r d value r d 
| en-us | 0 2 us 0 3 
| e [2 2 NULL |2 2 
| NULL |i 1 NULL |! 1 
| en-gb |1 2 gb |1 3 
| NULL |o 1 NULL |o 1 


图 3-21 Document 类 型 的 实际 存储 格式 


记录 


第 一 个 是 “en-us”, 出 现在 第 一 个 Name 的 第 一 个 Language 的 第 一 个 Code 里 面 。 在 此 


之 前 ,这 三 个 元 素 是 没有 重复 过 的 ,都 是 第 一 个 。 所 以 其 人 为 0。 


第 二 个 是 “en” ,出 现在 第 一 个 Name 的 第 二 个 Language 里 面 。 也 就 是 说 Language 是 
重复 的 元 素 。Name. Language. Code 中 Language 肉 套 位 置 是 第 二 层 , 所 以 其 R 为 2。 
第 三 个 是 “en-gb”, 出 现在 第 二 个 Name 中 的 第 一 个 Language. Name 2H BCR ME 


位 置 为 第 一 层 ,所 以 其 R 为 1。 


Definition Level 是 定义 的 深度 ,用 来 记录 该 记录 的 实际 层次 。 所 以 对 于 非 NULL 的 记 
录 , 是 没有 意义 的 ,其 值 必然 为 相同 。 同 样 举 个 例子 .例如 Name. Language. Country: 
第 一 个 “us” 是 在 RI 里 面 ,其 中 Name,Language,Country 是 有 定义 的 。 所 以 D 为 3。 


Level) ,D(Definition Level) 才 能 存储 其 完整 信息 。Repetition Level 是 记录 该 列 的 值 是 在 
哪 一 个 级 别 上 重复 的 。 举 例子 说 明 , 对 于 Name. Language. Code 一 共有 三 条 非 Null 的 
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第 二 个 “NULL” 也 是 在 RI 的 里 面 ,其 中 Name. Language 是 有 定义 的 ,其 他 都 是 没有 
定义 的 。 所 以 D 为 2。 
第 三 个 "NULL? 还 是 在 RI 的 里 面 ,其 中 Name 是 有 定义 的 ,其 他 是 想象 的 。 所 以 D 
Al. 
第 四 个 “gb” 是 在 R1 里面 ,其 中 Name, Language. Country 是 有 定义 的 。 所 以 D 为 3。 
在 这 种 存储 格式 下 , 读 的 时 候 , 可 以 只 读 其 中 部 分 字段 ,构建 部 分 的 数据 模型 。 例 如 ,只 
读 取 Docld 和 Name. Language. Country。 可 以 同时 扫描 两 个 字段 , 先 扫 描 DocId 记录 下 第 
一 个 ,然后 发 现下 一 个 Docld 的 R 是 0; 于 是 该 读 Name. Language. Country, 如 果 下 一 个 R 
是 1 或 者 2 就 继续 读 , 如 果 是 0 就 开始 读 下 一 个 DocId。 图 3-22 展示 了 只 读 Docld 和 
Name. Language. Country 构建 部 分 数据 模型 。 
Docld: 10 
Name 
Language 
Country: 'us' 
Language 
Name 


Language 
Country: 'gb' 


Docld: 20 
Name 


图 3-22 只 读 Docld 和 Name. Language. Country 构建 部 分 数据 模型 
Dremel 的 扫描 方式 是 全 表 扫描 ,而 这 种 列 存储 设计 可 以 有 效 回 避 大 部 分 join 需求 ,做 
到 扫描 最 少 的 列 , Dremel 可 以 使 用 Sql-like 的 语法 查询 ,建立 查询 树 如 图 3-23 所 示 , 当 
client 发 出 一 个 请 求 , 根 节点 收 到 请 求 ,根据 metedata 将 其 分 解 到 叶子 节点 ,叶子 节点 直接 


扫描 数据 ,不 断 汇 总 到 根 节点 。 这 样 就 把 对 大 数据 集 的 查询 分 解 为 对 很 多 小 数据 集 的 并 行 
查询 ,因此 ,Dremel 的 分 析 处 理 速度 非常 快 。 
client query execution tree 
it 

root server “ 

Post as ho 

intermediate 

pias i [7 

leaf servers it ^ OOO 

(with local 6 日 B M 

storage) i! 


storage layer(e.g.. GFS) 


3-23 Dremel 的 查询 方式 


Dremel 是 一 个 大 规模 系统 。 在 一 个 PB 级 别 的 数据 集 上 面 ,将 任务 缩短 到 秒 级 ,无疑 需 
要 大 量 的 并 发 。 磁 盘 的 顺序 读 速度 在 100MB/s 上 下 ,那么 在 1s 内 处 理 ITB 数据 ,意味 着 
至 少 需要 有 1 万 个 磁盘 的 并 发 读 ! Google 一 向 是 用 廉价 机 器 办 大 事 的 好 手 。 但 是 机 器 越 
多 ,出 问题 的 概率 越 大 ,如 此 大 的 集群 规模 ,需要 有 足够 的 容错 考虑 ,保证 整个 分 析 的 速度 不 
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受 集 寿 中 个 别 慢 ( 坏 ) 节 点 的 影响 。 
3.4 亚马逊 云 服务 


作为 全 球 最 大 的 电子 商务 网 站 ,Amazon( 亚 马 逊 ) 为 了 处 理 数量 庞大 的 并 发 访问 和 交易 
购置 了 大 量 服 务 器 。2001 年 互联 网 泡沫 使 业务 量 锐 减 ,系统 资源 大 量 闲 置 。 在 这 种 背景 
下 ,Amazon 给 出 一 个 创新 的 想法 是 ,将 硬件 设施 等 基础 资源 封装 成 服务 供用 户 使 用 , 即 通 
过 虚拟 化 技术 提供 可 动态 调度 的 弹性 服务 (IaaS)。 之 后 经 过 不 断 的 完善 ,现在 的 亚马逊 云 
服务 (Amazon Web Services,AWS) 提 供 一 组 广泛 的 全 球 计算 、 存 储 、 数 据 库 、 分 析 、 应 用 程 
序 和 部 团 服 务 , 可 帮助 组 织 更 快 地 迁移 、 降 低 IT 成 本 和 扩展 应 用 程序 。 很 多 大 型 企业 和 热 
门 的 初创 公司 都 信任 这 些 服 务 , 并 通过 这 些 服务 为 各 种 工作 负载 提供 技术 支持 ,包括 : Web 
和 移动 应 用 程序 数据 人 处理 和 仓库 ,存储 ,归档 和 很 多 其 他 工作 负载 。 目 前 ,亚马逊 云 服务 主 
要 包括 中 : 弹性 计算 云 EC2、 简 单 存 储 服务 S3、 简 单数 据 库 服 务 Simple DB、 简 单 队列 服务 
SQS .弹性 MapReduce 服务 、 内 容 推 送 服务 CloudFront、 数 据 导 入 /导出 服务 AWS Import/ 
Export、 关 系数 据 库 服 务 RDS 等 。 


3.4.1 亚马逊 云 平 台 存 储 架 构 


AWS 提供 一 系列 云 计 算 服 务 ,无 疑 要 建立 在 一 个 强大 的 基础 存储 架构 之 上 ,Dynamo 
是 Amazon 提供 的 一 款 高 可 用 的 分 布 式 Key-Value 存储 系统 ,具备 去 中 心 化 、 高 可 用 性 、 高 
扩展 性 的 特点 ,但 是 为 了 达到 这 个 目标 在 很 多 场景 中 牺牲 了 一 致 性 (CAP) ,能够 跨 数据 中 
心 部 署 于 上 万 个 节点 上 提供 服务 ,Dynamo 组 合 使 用 了 多 种 PP 技术 ,在 集群 中 它 的 每 一 台 
机 器 都 是 对 等 的 。 

为 了 达到 增 量 可 伸缩 性 的 目的 ,Dynamo 采用 一 致 性 喻 希 完成 数据 分 区 。 在 一 致 性 哈 
希 中 , 哈 希 函数 的 输出 范围 为 一 个 圆 环 ,系统 中 每 个 节点 映射 到 环 中 某 个 位 置 ,而 Key 也 被 
Hash 到 环 中 某 个 位 置 ,Key 从 其 被 映射 的 位 置 开 始 沿 顺 时 针 方 向 找到 第 一 个 位 置 比 其 大 的 
节点 作为 其 存储 节点 。 换 个 角度 说 ,就 是 每 个 系统 节点 负责 从 其 映射 的 位 置 起 到 逆 时 针 方 
向 的 第 一 个 系统 节点 间 的 区 域 。 一 致 性 哈 希 最 大 的 优点 在 于 节点 的 扩容 与 缩 容 ,只 影响 其 
直接 的 邻居 节点 ,而 对 其 他 节点 没有 影响 。 

在 分 布 式 环境 中 ,为 了 达到 高 可 用 性 需要 有 数据 副本 ,而 Dynamo 将 每 个 数据 复制 到 N 
台 机 器 上 ,其 中 N 是 每 个 实例 的 可 配置 参数 ,每 个 Key 被 分 配 到 一 个 协调 器 (coordinator) 
节点 ,协调 器 节点 管理 其 负责 范围 内 的 复制 数据 项 ,其 除了 在 本 地 存储 责任 范围 内 的 每 个 
Key 外 ,还 复制 这 些 Key 到 环 上 顺 时 针 方 向 的 N 一 1 个 后 继 节点 。 这 样 ,系统 中 每 个 节点 负 
责 环 上 从 自己 位 置 开 始 到 第 N 个 前 驱 节 点 间 的 一 段 区 域 。 有 具体 多 辑 见 图 3-24, 图 中 节点 也 
除了 在 本 地 存储 键 Key K 外 ,还 在 节点 C 和 D 处 复制 键 氏 , 这 样 节点 D 将 存储 落 在 范围 
(A, B], B, CJAC, DJ 上 的 所 有 键 。 

Dynamo 并 不 提供 强 一 致 性 ,在 数据 并 没有 被 复制 到 所 有 副本 前 ,如 果 有 get 操作 ,会 
取 到 不 一 致 的 数据 ,但 是 Dynamo 用 向 量 时 钟 (vector clock) 保 证 数据 的 最 终 一 致 性 。 在 
Amazon 平 台中 ,购物 车 就 是 这 种 情况 的 典型 应 用 。 购 物 车 应 用 程序 要 求 一 个 “添加 到 购物 
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车 ”动作 从 来 不 会 被 忘记 或 拒绝 , 当 用 户 向 当前 购物 车 添加 或 删除 一 件 物品 时 ,如 果 当 前 购 
物 车 的 状态 是 不 可 用 ,该 物品 会 被 添加 到 旧版 本 购物 车 中 ,并 且 不 同 版 本 的 购物 车 会 在 后 来 
协调 ,Dynamo 把 版 本 合并 的 责任 推 给 应 用 程序 。 也 就 是 说 ,购物 车 应 用 程序 会 收 到 不 同 版 
本 的 数据 ,并 负责 合并 ,这 种 机 制 使 得 “添加 到 购物 车 ”操作 永远 不 会 丢失 ,但 是 已 删除 的 条 
目 可 能 会 “重新 浮 出 水 面 "。 图 3-25 是 一 个 Dynamo 提供 最 终 一 致 性 的 具体 例子 : 


write 
handled by Sx 
DI([Sx, 1]) 


write 
handled by Sx 


KeyK D2([Sx. 2]) 
m (3 E write write 
ke handled by A N nied by Sz 
© Nodes B, C 
j \ v and D store D3([Sx. 2], [Sy, 1]) DA({Sx, 2], [Sz, 1]) 
keys in 
© range(A, B) reconciled 
H / including N f i written by 
ION OP » 
D DS([Sx, 3], [Sy. 1]. [Sz, 1]) 
图 3-24 在 Dynamo 环 上 的 分 区 与 Key 复制 图 3-25 Dynamo 的 最 终 一 致 性 保证 


CD 在 某 个 时 刻 , 某 个 节点 Sx 向 系统 写 人 了 一 个 新 对 象 , 系 统 中 有 了 该 对 象 的 一 个 版 
本 D1 和 其 相关 的 向 量 时 钟 [Sx,1] 。 

(2) 随后 节点 Sx 修改 了 D1, 系 统 中 便 有 了 不 同 的 版 本 D2 和 其 相关 的 时 钟 [Sx,2],D2 
继承 自 D1, 所 以 D2 复写 D1, 但 系统 中 或 许 还 存在 还 没有 看 到 D2 的 DI 副本 。 

(3) 接 下 来 不 同 的 节点 读 取 D2, 并 尝试 修改 它 , 于 是 系统 中 有 了 版 本 D3 和 D4 以 及 和 
他 们 相关 的 向 量 , 现 在 系统 中 可 能 有 了 该 对 象 的 4 个 版 本 : D1,D2,D3,D4,, 

(4) 接 下 来 假设 不 同 的 客户 端 读 取 该 对 象 ,版 本 D2 会 覆盖 版 本 D1 ,而 D3 和 D4 23 
盖 版 本 D2, 但 如 果 客 户 端 同时 读 到 D3 和 D4, 就 会 由 客户 端 进行 语义 协调 (syntactically 
reconciled) ,如 果 交 由 Sx 节点 协调 ,Sx 将 更 新 其 时 钟 序号 ,将 版 本 更 新 为 ([Sx,3],[Sy,1]， 
[sse;,1])。 

由 于 采用 P2P 对 等 模型 和 一 致 性 哈 希 环 , 每 个 节点 通过 Gossip 协议 传播 节点 的 映射 信 
息 得 到 自己 所 处 理 的 范围 ,并 互相 检测 节点 状态 ,如 果 有 新 加 入 节点 或 故障 节点 ,只 需要 调 
整 处 理 范围 内 的 节点 。Dynamo 的 高 度 伸缩 性 和 高 可 用 性 的 特点 ,为 Amazon 提供 的 各 种 
上 层 服务 提供 可 靠 保证 。 


3.4.2 EC2、S3、SimpleDB 等 组 件 


1. EC2 


亚马逊 弹性 计算 云 (Elastic Compute Cloud,EC2)59 是 一 个 让 使 用 者 可 以 租用 云端 计 
算 机 运行 所 需 应 用 的 系统 ,提供 基础 设施 层次 的 服务 (IaaS)。EC2 提供 了 可 定制 化 的 云 计 
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算 能 力 ,这 是 专 为 简化 开发 者 开发 Web 伸缩 性 计算 而 打造 的 ,EC2 借 由 提供 Web 服务 的 方 
式 让 使 用 者 可 以 弹性 地 运行 自己 的 Amazon 虚拟 机 ,使 用 者 将 可 以 在 这 个 虚拟 机 器 上 运行 
任何 需要 的 软件 或 应 用 程式 。Amazon 为 EC2 提供 简单 的 Web 服务 界面 ,让 用 户 轻 松 获取 
和 配置 资源 。 用 户 以 虚拟 机 为 单位 租用 Amazon 的 服务 器 资源 。 用 户 可 以 全 面 掌控 自身 的 
计算 资源 ,同时 Amazon 运作 是 基于 “ 即 买 即 用 ”模式 的 ,只 需 花 费 几 分 钟 时 间 就 可 获得 并 启 
动 服务 器 实例 ,所 以 它 可 以 快速 定制 响应 计算 需求 的 变化 。 

Amazon EC2 的 优势 有 : 在 AWS 云 中 提供 可 扩展 的 计算 容量 ; 使 用 Amazon EC2 可 
避免 前 期 的 硬件 投入 ,因此 用 户 能 够 快速 开发 和 部 署 应 用 程序 ; 通过 使 用 Amazon EC2, 用 
户 可 以 根据 自身 需要 启动 任意 数量 的 虚拟 服务 器 .配置 安全 和 网 络 以 及 管理 存储 ; Amazon 
EC2 允许 用 户 根 据 需 要 进行 缩放 以 应 对 需求 变化 或 流行 高 峰 ,降低 流量 预测 需求 。 
Amazon EC2 提供 以 下 具体 功能 : 

(1) 虚拟 计算 环境 ,也 称 为 实例 。 

(2) 实例 的 预 配置 模板 ,也 称 为 亚马逊 系统 映像 (AMD ,其 中 包含 服务 器 需要 的 程序 包 
(包括 操作 系统 和 其 他 软件 ) 。 

(3) 实例 CPU 内存、 存储 和 网 络 容 量 的 多 种 配置 ,也 称 为 实例 类 型 。 

(4) 使 用 密 钥 对 的 实例 的 安全 登录 信息 (AWS 存储 公有 密 钥 ,您 在 安全 位 置 存储 私有 
密 钥 ) 。 

(5) 临时 数据 (停止 或 终止 实例 时 会 删除 这 些 数 据 ) 的 存储 卷 , 也 称 为 实例 存储 卷 。 

(6) 使 用 Amazon Elastic Block Store (Amazon EBS) 的 数据 的 持久 性 存储 卷 , 也 称 为 
Amazon EBS 卷 。 

(7) 用 于 存储 资源 的 多 个 物理 位 置 , 例 如 实例 和 Amazon EBS 卷 , 也 称 为 区 域 和 可 
用 区 。 

(8) 防火 墙 , 让 用 户 可 以 指定 协议 .端口 ,以 及 能 够 使 用 安全 组 到 达 实 例 的 源 TP. 范围 。 

(9) 用 于 动态 云 计 算 的 静态 IP 地 址 .也 称 为 弹性 IP 地 址 。 

(10) 元 数据 ,也 称 为 标签 ,用 户 可 以 创建 元 数据 并 分 配给 Amazon EC2 资源 。 

(11) 用 户 可 以 创建 虚拟 网 络 ,这 些 网 络 与 其 余 AWS 云 在 逻辑 上 隔离 ,并 且 用 户 可 以 
选择 连接 到 自己 的 网 络 ,也 称 为 Virtual Private Cloud (VPC). 

2. S3 

Amazon S3(Simple Storage Service) ? f — IKTE RTT fil IRS ,在 云 计算 环境 下 提供 了 
不 受 限 制 的 数据 存储 空间 。 用 户 可 通过 授权 访问 一 个 简单 的 Web 服务 界面 存储 和 获取 
Web 上 任何 地 点 的 数据 。Amazon S3 提供 了 完全 砚 余 的 数据 存储 基础 设施 ,用 户 可 以 将 存 
储 内 容 发 送 到 Amazon EC2 进行 计算 ,调整 大 小 或 其 他 分 析 ,Amazon S3 负责 数据 的 持久 、 
备份 ,存档 与 恢复 等 可 靠 服务 。 

S3 的 基本 结构 如 图 3-26 所 示 ,S3 存储 系统 中 涉及 如 下 三 个 基本 概念 。 

1) 对 象 : S3 的 基本 存储 单元 ,由 数据 和 元 数据 组 成 ; 数据 可 以 是 任意 类 型 。 

2) 键 : 对 象 的 唯一 标识 符 。 

3) A: 存储 对 象 的 容器 ; PIERE E SS 中 名 称 唯一 、 每 个 用 户 最 多 创建 100 个 桶 。 

S3 的 操作 流程 如 图 3-27 所 示 ,用户 登录 S3 后 ,首先 创建 一 个 桶 (Bucket) ,然后 可 以 增 
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加 一 个 数据 对 象 (Object) 到 桶 中 ,接着 用 户 可 以 查看 对 象 或 移动 对 象 , 当 用 户 不 再 需要 存储 
数据 时 , 则 可 以 删除 对 象 和 桶 。 


桶 
对 象 对 象 对 象 
键 | | 数据 H 元 数据 | [orem 
图 3-26 S3 的 基本 结构 
Addan Delete an 
Sign Up for Createa View an Move an 
AmazonS3 | ^| Bucket | ^| Objecttoa [^7] Object [| Object [^| Object and 
Bucket Bucket 


图 3-27 S3 的 操作 流程 


3. SimpleDB 


Amazon SimpleDB" J — fi np JAERI, 25 15 PEK AY AE Xe HH FF EAR. "S S3 不 同 
(主要 用 于 非 结 构 化 数据 存储 ) , 它 主要 用 于 存储 结构 化 数据 。 开 发 人 员 只 需 通过 Web 服务 
请 求 执 行 数据 项 的 存储 和 查询 ,Amazon SimpleDB 将 负责 余下 的 工作 。 

Amazon SimpleDB 不 会 受制 于 关系 数据 库 的 严格 要 求 ,而 且 已 经 过 优化 ,能 提供 更 高 
的 可 用 性 和 灵活 性 ,让 管理 负担 大 幅 减少 甚至 是 零 负 担 。 而 在 后 台 工 作 时 , Amazon 
SimpleDB 将 自动 创建 和 管理 分 布 在 多 个 地 理 位 置 的 数据 副本 ,以 此 提高 可 用 性 和 数据 持 
ATE. 

SimpleDB 的 操作 流程 如 图 3-28 所 示 ,用 户 注册 登录 后 ,然后 可 以 创建 一 个 域 (Domain， 
它 是 存放 数据 的 容器 ) ,然后 可 以 向 域 中 添加 数据 条 目 (Item, 它 是 一 个 实际 的 数据 对 象 , 由 
属性 和 指 组 成 ) ,接着 用 户 可 以 查看 或 修改 域 中 的 数据 条 目 , 当 用 户 不 再 需要 存储 的 数据 时 ， 
则 可 以 删除 域 。 


Modify 
Get Set Up Create Put Items in Query Items in Delete 
Domain Domain Domain Domain Domain 


图 3-28 SimpleDB 的 操作 流程 


4. SQS 

Amazon SQS(Simple Queue Service) 是 面向 消息 的 中 间 件 (MOM) 的 云 计算 解决 方案 ， 
不 局 限于 某 一 种 语言 。Amazon SQS 提供 了 可 靠 且 可 扩展 的 托管 队列 ,用 于 存储 计算 机 之 
间 传 输 的 消息 。 使 用 Amazon SQS, 可 以 在 执行 不 同 任务 的 应 用 程序 的 分 布 式 组 件 之 间 移 
动 数据 , 既 不 会 丢失 消息 ,也 不 要 求 各 个 组 件 始 终 处 于 可 用 状态 。Amazon SQS 是 分 布 式 队 
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列 系统 ,可 以 让 Web 服务 应 用 程序 快速 可 靠 地 对 应 用 程序 中 的 一 个 组 件 生成 给 另 一 组 件 使 
用 的 消息 进行 排队 。 队 列 是 等 待 处 理 的 消息 的 临时 储存 库 。 

Amazon SQS 提供 以 下 主要 功能 : 

1) 宛 余 基础 设施 : 确保 将 消息 至 少 传输 一 次 、 对 消息 的 高 度 并 发 访问 以 及 发 送 和 检索 
消息 的 高 度 可 用 性 ; 

2) 多 个 写 和 人 器 和 读 取 器 : 系统 的 多 个 部 分 可 以 同时 发 送 或 接收 消息 ; 

3) 每 个 队列 的 设置 均 可 配置 : 并 非 所 有 队列 都 要 完全 相同 ; 

4) 可 变 消息 大 小 : 消息 大 小 可 高 达 262 144 字 节 (256 KB); 

5) 访问 控制 : 用 户 可 以 控制 谁 可 以 从 队列 发 送 和 收取 消息 ; 

6) 延迟 队列 : 延迟 队列 即 用 户 对 其 设置 默认 延迟 的 队列 ,从 而 所 有 排队 消息 的 传送 会 
推迟 那 一 段 时 间 。 

5. Elastic MapReduce 

Amazon Elastic MapReduce (Amazon EMR) 是 一 个 能 够 高 性 能 地 处 理 大 规模 数据 的 
Web service。Amazon EMR 使 用 Hadoop 处 理 方法 ,并 结合 多 种 AWS 产品 ,可 完成 以 下 各 
项 任务 : Web 索引 数据 挖掘 .日 志文 件 分 析 、 机 器 学 习 、 科 学 模拟 以 及 数据 仓库 。 

Amazon EMR 已 增强 了 Hadoop 和 其 他 开源 应 用 程序 ,以 便 与 AWS 无 颖 协作 ,如 图 3-29 
所 示 。 例 如 ,在 Amazon EMR 上 运行 的 Hadoop 集群 使 用 EC2 实例 作为 虚拟 Linux 服务 器 
用 于 主 节 点 和 从 属 节点 ,将 Amazon S3 用 于 输入 和 输出 数据 的 批量 存储 ,并 将 Amazon 
CloudWatch 用 于 监控 集群 性 能 和 发 出 警报 。 用 户 还 可 以 使 用 Amazon EMR 和 Hive 将 数 
据 迁 移 到 Amazon DynamoDB 以 及 从 中 迁 出 。 所 有 这 些 操作 都 由 启动 和 管理 Hadoop 集群 
的 Amazon EMR 控制 软件 进行 编排 。 这 个 流程 名 为 Amazon EMR 集群 。 


AWS 


má 

Amazon Cloud Watch Amazon EMR 作 业 流 运 行 
于 Amazon EC2 实 例 的 一 
个 集群 中 


Amazon EC2 实 例 


输出 结 


Amazon Simple 
Storage Service Amazon EMR 作 业 流 
(S3) 


图 3-29 Elastic MapReduce 


在 Hadoop 架构 顶层 运行 的 开源 项 目 也 可 以 在 Amazon EMR 上 运行 。 最 流行 的 应 用 
程序 ,例如 Hive, Pig, HBase,DistCp 和 Ganglia, 都 已 与 Amazon EMR 集成 。 

通过 在 Amazon EMR 上 运行 Hadoop ,可 以 从 云 计算 获得 以 下 好 处 : 

(1) 能 够 在 几 分钟 内 调配 虚拟 服务 器 集群 。 
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(2) 可 以 扩展 集群 中 虚拟 服务 器 的 数量 满足 计算 需求 ,而 且 仅 需 按 实际 使 用 量 付费 。 
(3) 与 其 他 AWS 服务 集成 。 
6. CloudFront 


CloudFront 是 一 个 内 容 分 发 网 络 服务 (Web service) ,该 服务 可 以 很 容易 地 将 内 容 投 送 
到 终端 用 户 , 具 有 低 延 迟 .高 数据 传输 速率 等 特点 。 简 单 来 说 ,就 是 使 用 CDN 进行 网 络 加 
速 和 向 最 终 用 户 分 发 静态 和 动态 Web 内 容 ( 例 如 ,. html. css、. php 和 图 像 文件 )。 
CloudFront 通过 一 个 由 遍布 全 球 的 数据 中 心 ( 称 作 节 点 ) 组 成 的 网 络 传输 内 容 。 当 用 户 请 
求 用 CloudFront 提供 的 内 容 时 ,用 户 的 请 求 将 被 传送 到 延迟 (时 延 ) 最 短 的 节点 ,以 便 以 可 
以 达到 的 最 佳 性 能 来 传输 内 容 。 如 果 该 内 容 已 经 在 延迟 最 短 的 节点 上 ,CloudFront 将 直接 
提供 它 。 如 果 该 内 容 目 前 不 在 这 样 的 节点 上 ,CloudFront 将 从 已 指定 为 该 内 容 最 终 版 本 来 
源 的 Amazon S3 存储 桶 或 HTTP 服务 器 (例如 ,Web 服务 器 ) 检 索 该 内 容 。 

内 容 推送 服务 CloudFront 集合 了 其 他 的 Amazon 云 服 务 ,为 企业 和 开发 者 提供 了 一 种 
简单 方式 ,以 实现 高 速 传输 分 发 数据 。 同 EC2 和 S3 最 优化 地 协同 工作 ,CloudFront 使 用 涵 
盖 了 边缘 的 全 球 网 络 交付 静态 和 动态 内 容 。 配 置 CloudFront 传输 用 户 的 内 容 信息 的 步骤 
如 图 3-30 所 示 : 配置 原始 服务 器 ,CloudFront 将 从 这 些 服务 器 中 获取 文件 ,以 便 从 遍布 
全 球 的 CloudFront 节点 进行 分 发 ; @ 将 用 户 的 文件 (也 称 作 对 象 ,通常 包括 网 页 、 图 像 和 媒 
体 文件 ) 上 传 至 原始 服务 器 ; @ 创 建 一 项 CloudFront 分 配 , 此 项 分 配 将 在 其 他 用 户 请 求 文 
件 时 ,告诉 CloudFront 从 哪些 原始 服务 器 获取 用 户 分 发 的 文件 ; @ 在 开发 网 站 或 应 用 程序 
时 ,可 以 使 用 CloudFront 为 用 户 的 URL 提供 的 域名 ; @ CloudFront 将 此 项 分 配 的 配置 (而 
不 是 用 户 的 内 容 ) 发 送 到 其 所 有 节点 ,这 些 节点 即 服务 器 的 集合 ,位 于 分 散在 不 同 地 理 位 置 
的 数据 中 心 内 。 
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7. AWS Import/Export 

AWS Import/Export 工具 采用 Amazon 公司 内 部 的 高 速 网 络 和 便携 存储 设备 , 绕 过 互 
联网 对 Amazon 云 上 的 数据 导入 导出 ,所 以 Import/Export 通常 快 于 互联 网 的 数据 传输 。 

AWS Import/Export 支持 从 S3 的 桶 中 上 传 和 下 载 数据 数据 上 传 到 亚马逊 弹性 块 存 
储 (Amazon EBS) 中。AWS Import/Export 的 操作 流程 如 图 3-31 所 示 , 在 使 用 AWS 
Import/Export 上 传 和 下 载 数据 前 ,用 户 需 要 使 用 S3 的 账号 登录 ,然后 下 载 Import/Export 
工具 ,再 保存 用 户 证 书 文件 ,接着 可 以 创建 一 个 导入 或 导出 数据 的 任务 。 


Download Save Your 
Sign Up Import/ Credentials 
Export Tool to File 


图 3-31 AWS Import/Export 的 操作 流程 


Create an 
Import Job 


Create an 
Export Job 


8. RDS 


Amazon Relational Database Service (Amazon RDS)U? 是 一 种 Web 服务 ,可 让 用 户 更 
轻松 地 在 云 中 设置 .操作 和 扩展 关系 数据 库 。 它 可 以 为 行业 标准 关系 数据 库 提 供 经 济 高 效 
且 可 以 调节 大 小 的 容量 ,并 管理 常见 数据 库 管 理 任务 。 

Relational Database Service(RDS, 关 系数 据 库 服务 ) 在 云 计算 环境 下 通过 Web 服务 提 
供 了 弹性 化 的 关系 数据 库 。 接 管 数据 库 的 管理 员 任务 ,以 前 使 用 MySQL 数据 库 的 所 有 代 
码 应 用 和 工具 都 可 兼容 Amazon RDS。 它 可 以 自动 地 为 数据 库 软件 打 补 丁 并 完成 定期 的 
按 计划 备份 。 

Amazon RDS 会 接管 关系 数据 库 的 许多 困难 或 烦琐 的 管理 任务 。 

(1) 购买 服务 器 时 ,您 会 一 并 获得 CPU 内存、 存储 空间 和 IOPS。 利 用 Amazon RDS, 
您 可 以 将 这 些 部 分 进行 拆 分 ,以 便 单独 对 其 进行 扩展 。 因 此 ,如 果 您 需要 更 多 CPU、 更 少 
TOPS 或 更 多 存储 空间 ,就 可 以 轻松 地 对 它们 进行 分 配 。 

(2) Amazon RDS 可 以 管理 备份 .软件 修补 、 自 动 故 障 检测 和 恢复 。 

(3) 为 了 让 用 户 获 得 托管 式 服务 体验 ,Amazon RDS 未 提供 对 数据 库 实例 的 Shell 访问 
权限 ,并 且 限 制 对 需要 高 级 特权 的 某 些 系统 程序 和 表 的 访问 权限 。 

(4) 可 以 在 需要 时 执行 自动 备份 ,或 者 创建 自己 的 备份 快照 。 这 些 备份 可 用 于 还 原 数 
据 库 ,并且 Amazon RDS 的 还 原 过 程 可 靠 且 高 效 。 

(5) 可 以 通过 主 实例 和 在 发 生 问 题 时 向 其 执行 故障 转移 操作 的 同步 辅助 实例 实现 高 可 
用 性 。 还 可 以 使 用 MySQL 只 读 副本 增加 只 读 扩展 。 

(6) 可 以 使 用 您 已 熟悉 的 数据 库 产品 : MySQL, PostgreSQL Oracle 和 Microsoft SQL 
Server。 

(7) 除了 数据 库 包 的 安全 外 .使 用 AWS IAM 定义 用 户 和 权限 ,还 有 助 于 控制 可 以 访问 
RDS 数据 库 的 人 员 。 此 外 ,将 数据 库 放置 在 虚拟 私有 云 中 ,也 有 助 于 保护 数据 库 。 
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3.5 基于 亚马逊 云 的 大 数据 分 析 案例 


3.5.1 亚马逊 云 平台 存储 架构 


随 着 数字 化 社交 水 平 的 逐渐 提高 ,数据 生成 与 收集 总 量 亦 迎 来 了 显著 增长 。 这 种 日 益 
增长 的 待 分 析 数 据 使 得 传统 分 析 工 具 面 临 着 极为 严峻 的 挑战 。 大 数据 工具 与 技术 提供 众多 
机 遇 与 挑战 ,其 能 够 有 效 地 分 析 数 据 以 了 解 客户 偏好 ,从 而 获得 市 场 竞 争 优势 并 实现 业务 拓 
展 。 数 据 管 理 架 构 已 经 由 传统 的 简单 数据 仓库 演变 为 复杂 的 结构 模型 , 且 能 够 解决 更 多 要 
求 , 例 如 执行 实时 与 批量 处 理 .应 对 结构 化 与 非 结 构 化 数据 以 及 高 速 事务 处 理 等 。 

AWS 提供 了 一 系列 广泛 的 服务 ,以 帮助 用 户 快速 轻松 地 构建 和 部 署 大 数据 分 析 应 用 
RUF. 借助 AWS, 可 以 快速 访问 灵活 的 低 成 本 IT 资源 ,可 以 迅速 扩展 几乎 任何 大 数据 应 
用 程序 ,其 中 包括 数据 仓库 \ 单 击 流 分 析 、 欺 诈 侦 测 、 推 荐 引擎 事件 驱动 ETL、 无 服务 器 计 
算 和 物 联 网 等 应 用 程序 。 借 助 AWS, 无 须 在 前 期 投入 大 量 的 时 间 和 费用 来 构建 和 维护 基础 
设施 。 相 反 地 ,可 以 精确 地 预 置 支持 大 数据 应 用 程序 所 需 的 资源 类 型 和 大 小 。AWS 提供 
的 服务 覆盖 的 领域 非常 广泛 ,帮助 用 户 在 云 中 对 大 数据 进行 收集 、 存 储 、 处 理 , 分 析 和 可 视 
化 。 在 大 数据 分 析 框 架 方面 ,提供 了 Amazon EMR, Amazon Elasticsearch Service 和 
Amazon Athena( 交 互 式 查 新 服务 ) ,这 些 服 务 可 用 于 大 数据 的 托管 型 分 布 式 计算 ; 在 实时 
大 数据 分 析 方 面 ,提供 了 Amazon Kinesis Analytics, Amazon Kinesis Streams 和 Amazon 
Kinesis Firehose, 这 些 服务 可 用 于 加 载 和 分 析 流 数据 的 强大 服务 ; 在 大 数据 存储 与 数据 库 
方面 ,提供 了 对 象 存储 Amazon S3, Amazon NoSQL 存储 DynamoDB 和 HBase、 关 系数 据 库 
Amazon RDS 等 ,可 实现 安全 ,持久 \ 高 度 可 扩展 的 大 数据 存储 ; 在 大 数据 计算 方面 ,提供 了 
Amazon EC2, Amazon EC2 Container Registry 和 Container Services 用 于 商业 智能 分 析 的 
Amazon QuickSight; 在 大 数据 迁移 方面 ,AWS Database Migration Service 和 AWS Server 
Migration Service; 数据 仓库 服务 Amazon Redshift, 可 以 使 用 高 性 能 本 地 磁盘 上 的 列 式 存 
储 通过 复杂 的 查询 优化 对 PB 级 结构 化 数据 运行 复杂 的 分 析 查 询 , 并 能 大 规模 执行 并 行 查 
询 ; 机 器 学 习 服 务 Amazon Machine Learning ,提供 可 视 化 工具 和 向 导 来 指导 用 户 完成 机 器 
学 习 (ML) 模 型 的 创建 过 程 。 可 帮助 用 户 轻 松 并 安全 地 将 数据 库 迁 移 至 AWS。 下 面 针 对 
其 中 部 分 主要 大 数据 分 析 服 务 进 行 简 介 ,更 详细 的 技术 说 明 请 参考 AWS 官网 主页 的 大 数 
据 服务 介绍 5 。 

Amazon EMR 提供 的 托管 Hadoop 框架 可 以 让 用 户 快 速 轻松 、 经 济 高 效 地 在 多 个 动态 
可 扩展 的 Amazon EC2 实例 之 间 处 理 大 量 数据 。Amazon EMR 利用 Apache Hadoop ,一 套 
开源 框架 ,将 大 家 的 数据 进行 分 布 并 跨越 一 整套 可 随意 调整 大 小 的 Amazon EC2 实例 集群 
进行 处 理 , 同 时 允许 用 户 使 用 Hive、Pig 以 及 Spark 等 常见 的 Hadoop 工具 。Hadoop 提供 
的 框架 能 够 运行 大 数据 处 理 与 分 析 任 务 , 而 Amazon EMR 则 负责 处 理 余下 的 各 类 基础 设施 
与 Hadoop 集群 软件 的 配置 ,管理 以 及 维护 工作 。 用 户 还 可 以 运行 其 他 常用 的 分 布 式 框架 
(例如 Amazon EMR 中 的 Apache Spark、HBase、Presto 和 Flink) ,以 及 与 其 他 AWS 数据 
存储 服务 (例如 Amazon S3 和 Amazon DynamoDB) 中 的 数据 进行 交互 。Amazon EMR 能 
够 安全 可 靠 地 处 理 广 泛 的 大 数据 使 用 案例 ,包括 日 志 分 析 、Web 索引 、 数 据 转换 (ETL)、 机 
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器 学 习 、 财 务 分 析 、 科 学 模拟 和 生物 信息 。 

Amazon Athena 是 一 种 交互 式 查 询 服 务 .能 够 使 用 SQL 分 析 Amazon S3 中 的 数据 。 
Athena 没有 服务 器 ,因此 无 须 管理 任何 基础 设施 。 用 户 只 需 指向 存储 在 Amazon S3 中 的 
数据 ,定义 架构 并 使 用 标准 SQL 开始 查询 。 在 数秒 内 即 可 获得 结果 。 借 助 Athena, 用 户 无 
须 为 了 进行 分 析 而 执行 复杂 的 ETL 任务 准备 数据 。 因 此 ,具备 SQL 技能 的 任何 人 都 可 以 
轻松 快速 地 分 析 大 规模 数据 集 。 

Amazon Redshift 是 一 种 快速 且 完 全 托管 的 数据 仓库 ,允许 用 户 使 用 标准 SQL 和 现 有 
的 商业 智能 (BD 工具 分 析 用 户 的 所 有 数据 。 利 用 Amazon Redshift, 用 户 可 以 使 用 本 地 高 
性 能 磁盘 上 的 列 式 存 储 通过 复杂 的 查询 优化 对 PB 级 结构 化 数据 运行 复杂 的 分 析 查 询 , 并 
能 大 规模 执行 并 行 查询 。 大 多 数 结果 在 几 秒 内 即 可 返回 。Amazon Redshift 还 包含 
Redshift Spectrum, 让 用 户 可 以 对 Amazon S3 中 的 EB 级 非 结 构 化 数据 直接 运行 SQL 查 
询 。 不 需要 加 载 或 转换 ,并 允许 用 户 使 用 Avro, CSV, Grok, ORC, Parquet, RCFile, 
RegexSerDe, SequenceFile, TextFile Al TSV 等 开源 数据 格式 。Redshift Spectrum 可 以 根 
据 检索 的 数据 自动 扩展 查询 计算 容量 ,因此 对 Amazon S3 的 查询 速度 非常 快 ,不 受 数据 集 
大 小 的 影响 。 

AWS Glue 是 一 项 完全 托管 的 提取 转换 和 加 载 (ETL) 服 务 ,让 用 户 能 够 轻松 准备 和 加 
载 数据 进行 分 析 。 用 户 只 需 将 AWS Glue 指向 存储 在 AWS 上 的 数据 ,AWS Glue 便 会 发 
现 用户 的 数据 ,并 将 关联 的 元 数据 (例如 表 定 义 和 架 构 ) 存 储 在 AWS Glue 数据 目录 中 。 存 
入 目录 后 ,这 些 数据 可 立即 供 ETL 搜索 .查询 和 使 用 。AWS Glue 可 生成 代码 执行 数据 转 
换 和 数据 加 载 流程 。AWS Glue 可 生成 可 自 定义 、 可 重复 使 用 且 可 移植 的 Python 代码 。 
ETL 作业 准备 就 绪 后 ,用 户 就 可 以 安排 它 在 AWS Glue 完全 托管 的 横向 扩展 Apache Spark 
环境 中 运行 。AWS Glue 可 提供 一 个 具有 依赖 关系 解析 、 作 业 监 控 和 警报 功能 的 灵活 计划 
程序 。 如 图 3-32 所 示 , 使 用 AWS Glue 数据 目录 跨 多 个 AWS 数据 集 快速 发 现 和 搜索 数 
据 , 无 须 移动 数据 。 数 据 存 入 目录 后 ,可 以 使 用 Amazon Athena, Amazon EMR 和 Amazon 
Redshift Spectrum 对 其 进行 搜索 和 查询 。 

Amazon Elasticsearch Service 允许 用 户 部 署 、 保 护 、 操 作 和 扩展 Elasticsearch, 以 便 进 
行 日 志 分 析 、 全 文 检 索 和 应 用 程序 监控 等 工作 。Amazon Elasticsearch Service 是 一 项 完全 
托管 的 服务 ,可 以 提供 各 种 易于 使 用 的 Elasticsearch API 和 实时 分 析 功 能 ,还 可 以 实现 生 
产 工作 负载 需要 的 可 用 性 、 可 扩展 性 和 安全 性 。 本 服务 在 内 部 集成 了 Kibana、Logstash 以 
及 Amazon Virtual Private Cloud (VPC), Amazon Kinesis Firehose, AWS Lambda 和 
Amazon CloudWatch 等 AWS 服务 ,因此 用 户 可 以 将 原始 数据 安全 快速 地 转变 为 可 付 诸 实 
施 的 分 析 结 果 。AWS 管理 控制 台 使 得 设置 和 配置 Amazon Elasticsearch Service 域 变 得 很 
方便 。Amazon Elasticsearch Service 可 以 为 用 户 的 域 预 置 所 有 资源 并 启动 域 。 用 户 可 以 从 
自己 的 VPC 或 公共 终端 节点 访问 域 。 本 服务 可 以 自动 检测 并 蔡 换 出 现 故障 的 
Elasticsearch 节点 ,减少 与 自 管理 的 基础 设施 和 Elasticsearch 软件 相关 的 开销 。Amazon 
Elasticsearch Service 让 用 户 只 需要 通过 单个 API 调用 或 在 控制 台中 单 击 几 次 就 可 以 轻松 
扩展 群集 。 利 用 Amazon Elasticsearch Service, 用 户 可 以 直接 访问 Elasticsearch 开源 API, 
因此 已 经 用 于 现 有 Elasticsearch 环境 的 代码 和 应 用 程序 都 可 以 流畅 工作 。 

Amazon Kinesis 能 够 帮助 用 户 收集 、 处 理 和 分 析 实 时 流 数据 ,从 而 及 时 地 了 解 新 信息 
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图 3-32 跨 多 个 数据 存储 的 统一 数据 视图 用 例 


并 快速 做 出 反应 。Amazon Kinesis 提供 多 种 核心 功能 ,可 以 处 理 任意 规模 的 流 数据 ,同时 
有 具 有 很 高 的 灵活 性 ,让 用 户 可 以 选择 最 符合 应 用 程序 需求 的 工具 。Amazon Kinesis 的 功能 
具体 包括 将 流 数据 轻松 加 载 到 AWS 的 Amazon Kinesis Firehose 服务 .使 用 标准 SQL 人 处理 
和 分 析 流 数据 Amazon Kinesis Analytics 服务 ,构建 用 于 处 理 和 分 析 流 数据 的 自 定义 应 用 
程序 Amazon Kinesis Streams 服务 。 借 助 Amazon Kinesis, 用 户 可 以 在 数据 库 、 数 据 湖 和 
数据 仓库 中 接收 应 用 程序 日 志 、 网 站 单 击 流 、IoT 般 测 数据 等 实时 数据 ,也 可 以 使 用 这 些 数 
据 构 建 自己 的 应 用 程序 。Amazon Kinesis 允许 用 户 对 收 到 的 数据 进行 实时 处 理 和 分 析 并 
做 出 响应 ,无 须 等 到 收集 完全 部 数据 后 才 开 始 分 析 。 如 图 3-33 所 示 , 给 出 Amazon Kinesis 
用 例 , 实 现 使 用 SQL 实时 处 理 和 分 析 流 数据 。 
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Kinesis Analytics 


Kinesis 
Streams 
Capture streaming data with Run standard SQL queries Kinesis Analytics can send processed data to 
Kinesis Streams or Kinesis Firehose against data streams analytics tools so you can create alerts and 


respond in real-time 
图 3-33 Amazon Kinesis 用 例 : 使 用 SQL 实时 处 理 和 分 析 流 数据 
AWS Data Pipeline 是 一 种 Web 服务 ,可 帮助 用 户 可 靠 地 处 理 数据 并 以 指定 的 间隔 在 


不 同 AWS 计算 与 存储 服务 以 及 内 部 数据 源 之 间 移 动 数据 。 利 用 AWS Data Pipeline, 用 户 
可 以 定期 在 存储 数据 的 位 置 访问 数据 ,大 规模 转换 和 处 理 数据 ,高 效 地 将 结果 传输 到 各 种 
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AWS 服务 中 ,例如 Amazon S3、Amazon RDS、Amazon DynamoDB 和 Amazon EMR。 该 服 
务 帮助 用 户 轻松 创建 具有 容错 、 可 重复 和 高 可 用 性 特征 的 复杂 数据 处 理工 作 负 载 。 用 户 无 
须 确保 资源 可 用 性 ,管理 作业 间 的 从 属性 ,或 担心 重 试 瞬时 失效 或 超时 的 单个 任务 ,以 及 创 
建 故障 通知 系统 等 问题 。 

Amazon QuickSight 是 基于 云端 的 业务 分 析 服 务 ,允许 用 户 进 行 数据 可 视 化 ,执行 特 设 
分 析 (ad-hoc analysis) ,通过 方便 的 分 析 数 据 方法 洞察 业务 的 走向 。 该 服务 允许 用 户 轻 松 连 
接 到 用 户 的 数据 ,执行 高 级 分 析 , 创 建 可 从 任何 浏览 器 或 移动 设备 访问 到 的 丰富 的 由 数据 可 
视 化 生成 的 图 表 。 

Amazon CloudSearch 是 一 种 在 AWS 云 中 托管 的 服务 ,允许 用 户 为 网 站 或 应 用 程序 设 
置 、 管 理 或 扩展 搜索 解决 方案 。Amazon CloudSearch 支持 34 种 语言 和 常用 搜索 功能 (如 突 
出 显示 自动 完成 和 地 理 空间 搜索 )。 借 助 Amazon CloudSearch, 用 户 可 以 迅速 为 自己 的 网 
站 或 应 用 程序 添加 丰富 的 搜索 功能 。 用 户 不 需要 担心 硬件 的 预 配置 设置 和 维护 ,在 AWS 
管理 控制 台中 可 以 创建 一 个 搜索 域 ,又 或 者 上 传 希望 能 搜索 的 数据 , Amazon CloudSearch 
会 自动 预 配置 所 需 的 资源 ,并 部 署 一 个 高 度 优化 的 搜索 索引 。 用 户 可 以 随时 更 改 搜索 参数 、 
优化 搜索 相关 性 和 应 用 新 设置 。 随 着 数据 量 和 流量 变化 ,Amazon CloudSearch 会 进行 无 缝 
调整 ,满足 不 同 的 需求 。 


3.5.2 亚马逊 云 的 Web 服务 器 日 志 大 数据 分 析 案 例 


1. Web 服务 器 日 志 大 数据 分 析 的 需求 与 分 析 

随 着 Web 服务 的 发 展 ,几乎 各 个 政府 部 门 , 企 业 公司 、 科 研 院 校 等 都 拥有 了 自己 的 网 
站 。 而 与 此 同时 ,在 构建 和 管理 网 站 中 ,各 个 单位 都 会 遇 到 各 种 各 样 的 问题 。 为 了 了 解 网 站 
的 运行 情况 ,发 现 网 站 存在 的 不 足 ,促进 网 站 更 好 地 发 展 ,对 于 Web 服务 器 的 运行 和 访问 情 
况 进 行 详细 周全 的 分 析 是 非常 重要 的 。 管 理 网 站 需要 监视 Web 的 速度 .内容 传输 ,吞吐 、 访 
问 等 数据 ,通过 这 些 数据 可 以 更 好 地 了 解 网 站 的 情况 ,得 到 需要 进行 改善 的 地 方 。 而 处 理 这 
些 需 求 ,可 以 通过 对 Web 服务 器 的 日 志文 件 进行 分 析 来 做 到 。 

假设 我 们 托管 一 个 受 欢迎 的 电子 商务 网 站 , 想 要 分 析 Apache Web 日 志 , 以 了 解 人 们 发 
现 我 们 的 网 站 的 方式 ,从 而 希望 确定 网 站 的 哪 一 个 在 线 广告 活动 推动 了 最 多 的 在 线 商 店 流 
量 。 通 常 ,对 于 数据 的 处 理 , 我 们 会 想到 利用 如 MySQL 等 关系 型 数据 库 进行 处 理 。 但 是 ， 
Web 服务 器 日 志 因 过 于 庞大 而 无 法 导入 MySQL 数据 库 , 并 且 它 们 未 采用 关系 格式 。 因 此 
我 们 需要 使 用 其 他 方法 分 析 这 些 日 志 。Amazon EMR 将 Hadoop 和 Hive 等 开源 应 用 程序 
与 Amazon Web Services 集成 ,可 为 分 析 Apache Web 日 志 等 大 规模 数据 提供 可 扩展 的 高 
效 架构 。 

本 案例 的 目标 在 于 使 用 AWS 创建 Amazon EMR 集群 ,导入 需要 分 析 的 日 志文 件 , 利 
用 集群 中 Hive 应 用 程序 ,对 日 志文 件 的 数据 进行 处 理 并 分 析 ,从 而 得 出 我 们 需要 的 信息 。 

2. Web 服务 器 日 志 大 数据 分 析 的 设计 

WordCount 在 本 案例 中 ,日 志文 件数 据 来 自 Apache 服务 器 网 站 生成 的 日 志文 件 。 日 
志文 件 的 生成 由 Apache Commons Logging 完成 ,生成 的 文件 存储 在 服务 器 主机 上 。 
Apache Commons Logging, 又 叫 作 JakartaCommons Logging(JCL) , 它 提 供 的 是 一 个 日 志 
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(Log) 接 口 (interface) ,同时 兼顾 轻 量 级 和 不 依赖 于 具体 的 日 志 实 现 工具 。 它 提供 给 中 间 
件 / 日 志 工 具 开 发 者 一 个 简单 的 日 志 操作 抽象 ,允许 程序 开发 人 员 使 用 不 同 的 具体 日 志 实 现 
工具 。 用 户 被 假定 已 熟悉 某 种 日 志 实现 工具 的 更 高 级 别 的 细节 。JCL 提供 的 接口 ,对 其 他 
一 些 日 志 工具 ,包括 Log4] Avalon LogKit 和 JDK 等 ,进行 了 简单 的 包装 ,此 接口 更 接近 于 
Log4J 和 LogKit 的 实现 。 

日 志文 件 的 转 存 主要 使 用 Amazon S3 服务 。 我 们 会 将 即将 进行 分 析 的 文件 从 网 站 服 
务 器 上 机 上 传 到 Amazon S3 服务 ,以 进行 后 续 进一步 的 处 理 。Amazon S3 是 专 为 从 任意 位 
置 存 储 和 检索 任意 数量 的 数据 而 构建 的 对 象 存储 ,这 些 数据 包括 来 自 网 站 和 移动 应 用 程序 、 
公司 应 用 程序 的 数据 以 及 来 自 IoT 传感器 或 设备 的 数据 。 

日 志文 件 的 数据 主要 使 用 Hive 应 用 程序 进行 处 理 和 分 析 。Hive 是 建立 在 Hadoop 上 
的 数据 仓库 基础 构架 。 它 提供 了 一 系列 的 工具 ,可 以 用 来 进行 数据 提取 转化 加 载 (ETL)， 
这 是 一 种 可 以 存储 、 查 询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数据 的 机 制 。Hive 定义 了 简单 
的 类 SQL 查询 语言 , 称 为 HQL, 它 允许 熟悉 SQL 的 用 户 查询 数据 。 同 时 ,这 个 语言 也 允许 
熟悉 MapReduce 的 开发 者 开发 自 定义 的 mapper 和 reducer 处 理 内 建 的 mapper 和 reducer 
无 法 完成 的 复杂 的 分 析 工 作 。Hive 没有 专门 的 数据 格式 。Hive 可 以 很 好 地 工作 在 Thrift 
之 上 ,控制 分 隔 符 ,也 允许 用 户 指 定数 据 格式 。AWS 的 Amazon EMR 集群 已 将 Hadoop 和 
Hive 等 应 用 程序 集成 ,因此 可 以 利用 AWS 创建 相应 的 Amazon EMR 集群 。 

因此 ,在 本 案例 中 我 们 的 目的 是 : Amazon S3 导入 数据 (日 志文 件 ) 并 创建 Amazon 
EMR 集群 。 随 后 ,连接 到 集群 的 主 节点 ,并 在 其 中 运行 Hive 以 便 使 用 简化 的 SQL 语法 查 
if Apache 日志。 

本 案例 的 数据 日 志 来 源 于 国内 某 技术 学 习 论 坛 ,该 论坛 由 某 培训 机 构 主办 ,汇聚 了 众多 
技术 学 习 者 ,每 天 都 有 人 发 帖 ` 回 帖 , 如 图 3-34 所 示 。 日 志 数 据 的 具体 下 载 地 址 为 : http:// 
blog. csdn. net/mergerly/article/details/52759903 。 


JavaEE+hadoop 大 数据 学 习 资源 «5:55 |Æ% s19 | 举人 :17 § dein (E 订阅 


à 


ESI HERRERA 


JavaEE+ hadoop 大 数据 视频 教程 4 19/4197 PAM iani 

RAE ome B22) eis) | tiem) 7 
$8532. a AT ms 精华 更 多 ~ -xe on Sees s25 
- 送 10000 黑 马 币 ] 报 名 第 66 期 Android 班 . 立 碱 3000 元 学 费 , 开 他 送 家 礼 ! 到 - (MH 1615 ] Ij 

«p UF) 2345 6.138 2015517 114 
Je, ixnverms be EU Ete e Rey Hime! - (eem o] FERT.. 

$ 18 23256. 2015517 144 
4 x Up] MEOE -2 3 4 5 6- 24 Uo ee 507/3751 focum 


图 3-34 日 志文 件 来 源 论坛 网 站 


本 案例 中 所 用 到 的 Web 日 志文 件 格式 为 . log ,数据 格式 如 图 3-35 所 示 。 
以 第 一 行 日 志 为 例 , 变 量 的 解释 如 下 : 
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图 3-35 日志 文件 示例 


remote_addr: 记录 客户 端的 IP 地 址 。110. 75. 173. 48, 

remote_user: 记录 客户 端 用 户 名 称 。-。 

time local; 记录 访问 时 间 与 时 区 。[30/May/2013:23:59:58 +0800], 

request; 记录 请 求 的 URL 与 HTTP 协议 。*GET /thread-36410-1-9. html HTTP/1. 1", 

status; 记录 请 求 状态 ,成 功 是 200。200。 

body bytes sent: 记录 发 送 给 客户 端 文件 主体 内 容 大 小 。19939。 

http_referer: 用 来 记录 从 哪个 页 面 链 接 访 问 过 来 的 。NULL。 

http_user_agent: 记录 客户 浏览 器 的 相关 信息 。NULL。 

本 案例 使 用 两 个 Web 日 志文 件 分 别 为 58. 3MB 的 access_2013_05_30. log、149. 8MB 
的 access_2013_05_31. log 作为 分 析 对 象 ,并 将 其 上 传 至 Amazon S3 服务 ,以 方便 Amazon 
EMR 集群 的 导入 及 分 析 。 

3. Web 服务 器 日 志 大 数据 分 析 的 实现 过 程 

基于 亚马逊 云 的 Web 服务 器 日 志 大 数据 分 析 的 具体 实现 过 程 分 为 以 下 8 个 步 又。 

步骤 1: 创建 密 钥 对 

在 首次 使 用 AWS 的 服务 之 前 ,我 们 首先 要 申请 一 个 账号 。AWS 使 用 公 钥 加 密 保护 我 
们 的 实例 的 登录 信息 。 一 个 Linux 实例 没有 密码 ,但 是 我 们 需要 使 用 密 钥 对 安全 地 登录 到 
实例 。 在 启动 实例 时 指定 密 钥 对 的 名 称 ,然后 在 使 用 SSH. 登录 时 提供 私 钥 。 对 于 
让 ,需要 获取 实例 的 管理 员 密 码 , 以 便 使 用 RDP 登录 。 
-需要 用 到 的 Hadoop 框架 是 在 Linux 系统 上 的 ,所 以 为 了 能 让 计算 机 连接 上 AWS 
的 服务 ,需要 在 AWS 上 创建 一 个 密 钥 对 (key pair)。 登 录 账 号 ,然后 会 进入 到 控制 台 页 面 
COLE] 3-36)。 单 击 “ 计 算 ” 模 块 中 的 “EC2”, 进 入 EC2 控制 面板 ( 见 图 3-37)。 
从 左边 的 菜单 栏 中 选择 “网 络 与 安全 ”一 “ 密 钥 对 ”, 在 出 现 的 密 钥 对 管理 页 面 ( 见 图 3-38) 
中 选择 “创建 密 钥 对 ”。 

输入 密 钥 对 名 称 ( 见 图 3-39)。 此 名 称 用 于 SSH 登录 时 选择 对 应 的 密 钥 对 ,以 便 能 成 功 
登录 到 实例 。 

单 击 创建 之 后 网 站 ,会 自动 开始 该 密 钥 对 的 私 钥 文件 (格式 为 pem) 的 下 载 任务 ( 见 图 3-40), 
我 们 需要 将 私 钥 保存 到 安全 的 地 方 。 这 里 将 密 钥 对 命名 为 doc_exp。 

然后 ,就 可 以 看 到 所 创建 的 密 钥 对 在 密 钥 管理 页 面 中 的 显示 ( 见 图 3-41) 。 

对 于 Mac OS X fil Linux 系统 ,我 们 可 以 用 以 下 命令 使 得 私 钥 文件 只 有 我 们 可 读 。 把 
其 中 的 红色 字体 部 分 (doc_exp) 换 成 我 们 创建 时 的 密 钥 对 名 称 。 


$ chmod 400 doc exp.pem 
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图 3-37 EC2 控制 面板 


SERRE 


S47 Create Key Pak (BBESIVIN] ES ECR ERP, 


图 3-38 密 钥 对 管理 页 面 
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图 3-39 输入 密 钥 对 名 称 
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图 3-41 管理 密 钥 对 


对 于 Windows 系统 ,需要 使 用 PuTTY 把 . pem 文件 转换 为 . ppk 文件 使 用 。 有 具体 步骤 


如 下 。 


从 http://www. chiark. greenend. org. uk/ 一 sgtatham/putty/ 下 载 PuTTY 并 安装 。 
打开 PuTTYgen (例如 , 打开 “开始 "菜单 , 单 击 “ 所 有 程序 ”一 “PuTTY ”一 
“PuTTYgen”) 。 

在 Type of key to generate 下 ,选择 “SSH-2 RSA”, 

单 击 “load”, 在 默认 情况 下 ,PuTTYgen 只 显示 . ppk 文件 ,为 了 定位 到 我 们 的 . pem 
文件 ,我 们 需要 选择 显示 所 有 格式 的 文件 。 

选择 我 们 的 私 钥 文件 并 单 击 “Open”, 单 击 *OK” 按 钮 关闭 确认 对 话 框 。 

单 击 Save private key, PuTTYgen 会 弹出 一 个 有 关 “Saving the key without a 
passphrase” 的 警告 提示 , 单 击 “Yes”。 

指定 与 我 们 的 密 钥 对 相同 的 名 称 并 单 击 “Save”, PuTTYgen 将 会 自动 生成 . ppk 的 
Sik 
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步骤 2. 创建 Amazon EMR 集群 
接 下 来 ,开始 进行 实验 环境 的 搭建 。 首 先 返 回 AWS 控制 台 页 面 ( 见 图 3-36), 单 击 “ 分 
析 ” 下 的 “EMR”, 进 入 Amazon EMR 管理 页 面 ( 见 图 3-42) 。 


Amazon EMR ‘ 


Te 欢迎 使 用 Amazon Elastic MapReduce 

Amazon Elastic MapReduce (Amazon EMR) 是 一 种 能 让 企业 、 研 究 人 员 、 数 据 分 析 师 和 开发 人 员 轻 松 和 经 
wern 济 高 效 地 外 理 大 量 效 据 的 Web 服务 。 

Events 

em 您 似乎 没有 集群 。 现 在 创建 一 个 : 
Ca 
Elastic MapReduce 工作 原理 
Efe p iie 

p = e—a 


图 3-42 Amazon EMR 管理 页 面 


单 击 “ 创 建 集群 ”, 开 始 集群 的 创建 。 然 后 单 击 “ 创 建 集群 -快速 选项 ”右边 的 “ 转 到 高 级 
选项 ”按钮 ,进行 更 详细 的 配置 ( 见 图 3-43)。 
创建 集群 - 快速 选项 enman 
常规 配置 


集群 名 称 emrtutonal 
O atar © 
启动 模式 @ HO “ SRNO 


图 3-43 ”开始 集群 的 创建 


在 “软件 配置 "下 ,选择 最 新 的 AMI VersionCAMI 版 本 )( 见 图 3-44) 。 由 于 我 们 只 需要 


用 到 Hadoop 和 Hive, 所 以 保留 Hadoop 和 Hive 的 选择 ,将 其 他 工具 的 选择 去 掉 ( 见 图 3-45) 。 
然后 单 击 “ 下 一 步 " 按 钮 。 


创建 集群 - 高 级 选项 seam 


Id 软件 配置 
sazan RE [Emr590 "0 
497 ^ 
SRS MENCE Z Ha em4oi p^ pn 
E md ones k Ganglia 3.7.2 
sma: kett emr483 
HB) emr482 b v Hwe230 
emr480 Pr3410 146 
emr472 Saee 
Mal emr471 ) Phoenix 4.11.0 
emr470 bo HCatalog 230 


图 3-44 选择 AMI 版 本 
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发 行 版 [3.11.0 oe 

w^ Hadoop 2.4.0 v^ Hive 0.13.1 Hue 3.7.1 
Spark 1.3.1 Impala 1.2.4 Ganglia 3.2.0 
Pig 0.12.0 HBase 0.94.18. 


© AMi 版 本 (3x 和 2.x ) 和 EMR 发 行 版 (4x) 的 配置 方式 不 同 。 对 于 HUE 和 Spark , 您 必须 使 用 配置 Hadoop 引导 操作 或 特定 于 应 用 程序 的 配 | 
Rm. 


图 3-45 保留 需要 的 工具 


在 “硬件 配置 "下 ,保留 默认 设置 ( 见 图 3-46)。 默 认 的 硬件 配置 包括 一 个 主 实例 ( 主 节 
点 :8 个 CPU,15GB 内 存 ,80GB 硬盘 容量 ) ,两 个 核心 实例 (计算 节点 : 8 个 CPU,15GB 内 
存 ,80GB 硬盘 容量 ) 。 


l wenn 
硬件 配置 6 
IRER 20 NLE EC2 实例 ， 请 使 用 AWS IEEE RSC, 
MiS [voc ocana 11723100716) ARAM *| wo 
E02 FM [subnet 04763173 MAR en no ie * 
Node type nary sm BIAR Auto Scaling 
E=] mixlarge 9 1 X5 om 不 可 用 于 主 节点 © 
m -1 8 个 VCPU , 15 GIB AF? ,80 SSD GB 75E 
EBs Hit: 无 A 
morn maxiarge ^ 2 x» em ^em e 
ORE -2 KP 8 个 vCPU , 15 个 GB 内存 ,80 SSD GB FH 
EBS tit: X M^ 
ESRAR maxiarge 4^ 9 x9 en mm e 
[o -9 A 8/7 VCPU , 15/7 GIB FFF , 80 SSD GB FSR 
EESTI 无 办 
Bison 


图 3-46 保留 默认 硬件 配置 


在 "一般 选项 ”下 ,输入 我 们 的 集群 名 称 ,去 除 “日 志 记 录 ” 及 “终止 保护 ”的 选择 ( 见 
图 3-47)。 其 他 设置 保持 默认 。 


3-47 ”一般 选项 


在 “安全 选项 ”下 ,在 “EC2 键 对 ”选择 之 前 生成 的 密 钥 对 ,其 他 设置 保持 默认 ( 见 
图 3-48)。 然 后 单 击 “ 创 建 集群 "结束 集群 的 配置 ,并 创建 集群 。 

集群 的 创建 需要 一 点 时 间 , 这 时 候 需 要 耐心 等 候 一 段 时 间 , 直 到 页 面 上 方 的 提示 “正在 
启动 ”( 见 图 3-49) 变 为 “正在 等 待 ”( 见 图 3-51)。 第 一 次 创建 集群 的 时 候 ,“ 网 络 和 硬件 ”部 
分 可 能 需要 对 用 户 的 身份 进行 验证 ( 见 图 3-50) ,耗费 的 时 间 会 比 平常 多 。 
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Ec2 键 对 [doc exp je 
v^ 显 趟 集 本 结账 户 中 所 有 的 IAM 用 户 © 


权限 @ 


ems EX 
使 用 默认 IAM 角色 。 如 果 角 色 不 存在 ， 他 们 将 被 自动 创建 并 为 您 提供 自动 第 略 更 
新 管理 政策 


EMR 角色 EMR_DepuhRole € 
EC2 实例 配置 文件 EMR_Ec2_DefaultRole €) 


上 加 密 选 项 
> EC2 安全 组 


图 3-48 安全 选项 
LE Ws cu export 
集群 : My cluster 正在 启动 
LIS E E sa I 
‘tim: - 
主 节操 公有 ONS: - 
[1 - mem 
摘要 eevee 网 结 和 硬件 
o D I 区: ~ 
BIEN: 2017.11.242127 (UTC+) Hadoop SES: Amazon 240 mo: 
BARE: Hive 0.13.1 ERO: ECER 1 mixtape 
BE URE ~ [T I 
EMRFs HR : Cin GSRN: ~ 


图 3-49 正在 进行 集群 的 配置 


网 络 和 硬件 
可 用 区 : cn-north-1b 
FWO: subnet mp 
主 实例 : GRE 1 marge 
核心 实例 : EERE 2 marge 
ESRA: - 
„A ETAPA - 1: Your account is currently being verified. 
Verification normally takes less than 2 hours. Until your 
account is verified, you may not be able to launch 
additional instances or create additional volumes. If you are 
‘still receiving this message after more than 2 hours, please 
let us know by writing to aws-vertfication@amazon.com. 
We appreciate your patience... 


全 校 心 实例 组 - 2: Your account is currently being verified. 
Verification normally takes less than 2 hours. Until your 
‘account is verified, you may not be able to launch 
‘additional instances or create additional volumes. If you are 
still receiving this message after more than 2 hours, please 
let us know by writing to aws-verification@amazon.com. 
We appreciate your patience... 


图 3-50 对 账户 进行 验证 
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集群 : My cluster — 正在 等 待 Custer ready ater last step completes. 
LE er se sm sssr 


m - 

主 节点 公有 ONS: cc noris! compute amazonaws com on SSH 

sE - 

nz ENSSAB [ud 

[i AMI: 3110 本 用 区 : cnmorh-1b 

RENI: 2017-11-26 2127 (UTC+1) Hadoop XE: Amazon 240 FR: 
运行 时 间 : 1 应 用 程序 : Hive 0.13.1 ‘SRM: 正在 运行 1 m3 .xlarge 
Amet: 5 BEUR: — WORM: HEEG 2 m3 xiarge 
MERI: 关闭 EMRFS RAN: CSS GSRN: - 

安全 与 访问 


图 3-51 集群 完成 配置 


步骤 3: 连接 到 主 节点 

我 们 创建 的 集群 默认 是 关闭 ssh 端口 的 ,为 了 让 我 们 的 机 器 能 够 连 上 集群 ,需要 将 集群 
的 ssh 的 22 端口 打开 。 在 集群 状态 页 面 ( 见 图 3-51) 中 , 单 击 “ 安 全 与 访问 ”下 的 “ 主 节 点 的 
安全 组 ”右边 的 节点 名 字 , 进 入 安全 组 的 配置 页 面 ( 见 图 3-52)。 


,ED e 
Q seh so MEER emnt 
Name - mo 


. ag Gem 
-— 


s 
nmo wD 
所 有 TCP Top 


ooto 
@ k« 142,2» 9 
- na + wow -me 
p— — Master group or Eas MapReduce crested on 2071 10T00 58 178662 
Famer som wD Sane group or Basic MapReduce created on 2017-11-1000 58 17 067 
Lo JU LIO LIO] 
0 -68635 39-28089999 (ElasicMapReducesmast 


图 3-52 集群 安全 组 配置 


UE PE“ FIA” A“ Master group for” 的 组 ( 即 主 节点 组 ) ,下 方 选择 “入 站 ”标签 页 , 单 击 “ 编 
辑 ”, 进 入 入 站 规则 的 配置 页 面 ( 见 图 3-53)。 单 击 “ 添 加 规则 ”, 在 新 添加 的 一 行规 则 的 “类 
型 "选择 “ssh”, “来源 ”选择 “任何 位 置 ”, 单 击 “ 保 存 ” 按 钮 以 保存 新 的 安全 组 规则 。 

完成 人 站 规则 的 修改 后 , 回 到 集群 的 状态 页 ( 见 图 3-51), 单 击 “ 主 节点 公有 DNS” 后 的 
地 址 右边 的 “SSH”. 将 会 看 到 使 用 不 同 机 器 连接 到 集群 的 提示 。Windows 可 以 按照 图 3-54 
所 示 进 行 连接 。Mac 和 Linux 系统 可 以 按 图 3-55 所 示 进 行 连接 。 

以 下 我 们 以 Linux 系统 为 例 。 打 开 终 端 ,输入 以 下 命令 ,将 一 /key_dirt/ doc_exp. pem 替换 
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编辑 入 站 规则 x 
mm 协议 四 MEE D AB mie O 
mae +) Fe LLL SSH e 
Tp *| fme (PUES ih SSH e 
(Geter me) [TCR (pires mun SSH o 
所 有 UDP  *. (UDP | 例 n 管 理 员 卓 面 SSH o 
maup "| (UDP ] puce em SSH o 
FICMP "| [CR (PENTRAN SSH o 
ICMP "| [lows (pane SSH o 
(SSH +) mee PEMER SSH o 
添加 规则 
注意 : MATOS TAR ,并 使 用 新 详细 信息 创建 一 条 新 规则 。 这 将 叶 玖 取决 于 该 规则 流量 在 较 反 的 时 间 段 内 下 降 ， 直 到 能 够 创建 
新 规则 . 
wow ud 


图 3-53 编辑 入 站 规则 


使 用 SSH 连接 主 节点 
您 可 以 使 用 SSH 连接 到 Amazon EMR 主 节点 ,以 运行 交互 式 可 询 ,检查 日 志文 件 , 提交 Linux 命令 等 。 
, Windows ^ Mac/ Linux | 
1. 从 以 下 位 置 将 PuTTY.exe FRIERI : 
http : /www chiark greenend.org.uk/-sgtatham/puttyldownload. html 
2 ERI PuTTY, 


3. ft Session (会 话 ) 列表 中 , Miti Category 
主机 名 "字段 中 , 键入 icn-north-1.compute.amazonaws.com.cn 


6 X3 82 BOMBE, r0 e — PH" exp.ppk), 


3-54 Windows 连接 提示 


使 用 SSH 连接 主 节点 
您 可 以 使 用 SSH 连接 到 Amazon EMR 主 节点 , 以 运行 交互 式 音 询 , 检查 日 志文 件 , 提交 Linux 命令 等 。 了 解 更 多 。 
Windows Mac/ Linux | 


1, FeSO. 在 Mac OS X 上 ,选择 ' 应 用 程序 >" 实 用 工具 > ees. (EH Linux 发 行 版 上 ,终端 通常 位 于 "应 用 程序 >" 附 件 > tet. 
2. 要 建立 与 主 节点 的 连接 , 请 键入 以 下 命令 。 请 将 ~/doc_exp.pem 做 入 为 用 于 启动 集群 的 私有 室 钥 文件 ( pem) 的 位 置 和 文件 名 。 


‘ssh -| ~/doc_exp pem hadoop QQectEessIcn-north-1.compute.amazonaws.com.cn 
3. 键入 yes 以 取消 安全 警告 


3-55 Mac/Linux 连接 提示 
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为 自 己 的 私 钥 文 件 的 位 置 和 文件 名 ， 将 ec0-00-00-000-00. cn-north-1. compute. amazonaws. com. 
cn 替换 为 集群 状态 页 面 中 * 主 节点 公有 DNS” 后 的 地 址 。 


$ ssh —i ~/key_dirt/doc_exp. pem hadoop@ec0 — 00 — 00 — 000 — 00. cn - north - 1. compute. 
amazonaws. com. cn 


在 弹出 安全 警告 提示 后 输入 “yes”, 取 消 安全 警告 。 连 接 成 功 后 将 会 看 到 图 3-56 所 示 


图 3-56 成 功 连接 集群 


步骤 4: 启动 和 配置 Hive 

Apache Hive 是 一 种 数据 仓库 应 用 程序 ,使 用 类 似 SQL 的 语言 来 查询 Amazon EMR 
集群 数据 。 由 于 我 们 在 配置 集群 时 选择 了 Hive, 它 已 在 主 节点 上 准备 就 绪 可 供 使 用 。 

要 以 交互 方式 使 用 Hive 查询 Web 服务 器 日 志 数 据 ,需要 加 载 一 些 额 外 的 库 
外 的 库 包 含 在 主 节点 上 名 为 hive_contrib. jar 的 Java 存档 文件 中 。 当 加 载 这 些 库 后 , Hive 
会 将 这 些 库 为 处 理 之 后 的 查询 而 启动 的 map-reduce 作业 绑 定 

输入 “hive” 命 令 以 启动 Hive € RS hive io + met n : 节点 时 指定 了 
hadoop 而 不 是 ec2-user 作为 用 户 名 。 

然后 在 hive > 命令 提示 符 下 ， 运行 siue Hive 进行 配置 ( 见 图 : 3-57) 


这 些 额 


hive> add jar /home/hadoop/hive/1ib/hive_contrib. jar; 


An. 3X AS Bl] /home/hadoop/hive/lib/hive_contrib. jar, 可 能 因为 创建 集群 时 所 选择 的 
AMI 存在 问题 。 可 以 根据 第 2. 3. 7 节 中 的 指示 执行 操作 ,然后 使 用 不 同 的 AMI 版 本 重新 
开始 实验 。 


图 3-57 打开 与 配置 Hive 
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HRS: 上 传 数据 文件 


现在 已 经 可 以 使 用 Hive 导入 需要 分 析 的 数据 文件 ,也 就 是 Web 日 志文 件 到 HDFS 上 
进行 分 析 了 。 我 们 准备 从 Amazon S3 中 导入 数据 ,但 是 现在 还 没有 数据 在 Amazon S3 中 ， 
因此 需要 先 将 数据 上 传 到 Amazon S3 服务 。 

首先 回 到 图 3. 36 所 示 AWS 控制 台 页 面 , 单 击 “ 存 储 与 内 容 分 发 "下 的 “S3”, 进 入 
Amazon S3 管理 页 面 ( 见 图 3-58)。 


欢迎 使 用 Amazon S3。 创 建 一 个 新 的 存储 桶 或 选择 现 有 存储 桶 以 查看 和 配置 属性 


[| Amazon S3 

| Q mk 

id] 

DEED 12 区 域 ?= 
[E 中 国 (北京 ) 


图 3-58 Amazon S3 管理 页 面 


单 击 “ 创 建 存储 桶 ”, 输 入 适合 存储 桶 的 名 称 , 保 持 所 有 默认 设置 ,然后 单 击 “ 创 建 ”, 生 成 
存储 桶 。 然 后 单 击 进入 存储 桶 , 单 击 * 上 传 ” 选 择 需 要 上 传 的 文件 进行 上 传 。 上 传 文件 时 对 
文件 的 设置 保持 默认 即 可 。 然 后 ,就 可 以 看 见 我 们 成 功 上 传 的 文件 在 页 面 中 显示 ( 见 图 3-59)。 
页 面 上 方 “Amazon S3 >” 后 的 路 径 即 为 文件 路 径 。 


Amazon S3 > aws-logs- -cn-north-1 / elasticmapreduce / webLogsSample 


Q 键入 前 级 并 按 输 入 来 搜索 。 按 ESC 可 清除 。 
i He + 创建 文件 夹 更 多 v 


] 名 称 TS 
] [D access 2013 05 30Jog 


] DB access 2013 05 310g 


图 3-59 Amazon S3 存储 桶 内 容 
步骤 6: 创建 Hive 表 并 向 HDFS 加 载 数据 
要 使 Hive 能 够 与 数据 进行 交互 ,必须 将 数据 从 其 现 有 格式 (就 Apache Web 日 志 来 说 ， 
数据 为 文本 文件 ) 转 换 为 可 表示 为 数据 库 表 的 格式 。Hive 使 用 串 行 器 / 解 串 器 (SerDe) 执 行 
此 转换 ,存在 适用 于 各 种 数据 格式 的 SerDe。 有 关 如 何 编写 自 定义 SerDe 的 信息 ,可 参阅 
Apache Hive Developer Guide。 
我 们 在 此 实验 中 使 用 的 SerDe 采用 正则 表达 式 分 析 日 志文 件数 据 。SerDe 来 自 Hive 
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开源 社区 。 使 用 此 SerDe, 可 以 将 日 志文 件 定义 为 表 , 在 此 教程 的 后 面部 分 中 ,我 们 将 使 用 
类 似 SQL 的 语句 查询 该 表 。Hive 加 载 数据 后 ， AE Amazon EMR 集群 处 于 运行 状态 , 数 
据 就 会 保留 在 HDFS 存储 中 ,即使 关闭 Hive 会 话 和 SSH 连接 也 是 如 此 。 

复制 下 面 的 多 行 命令 : 


CREATE TABLE serde regex( 

host STRING, 

identity STRING, 

user STRING, 

time STRING, 

request STRING, 

status STRING, 

size STRING, 

referer STRING, 

agent STRING) 
ROW FORMAT SERDE 'org. apache. hadoop. hive. contrib. serde2. RegexSerDe' 
WITH SERDEPROPERTIES ( 

"input. regex” = "([^]* ) ([^]1* ) ([*] *) C- INEENN JJ * NJ) (V1 INPEN1 V) (= | 
[0-9]*) (— [[0-9]*)(?: ([^N* 3 INTEND VP). (^V NN 

"output. format. string" = "%1$s %2$s %3$s &4$s $5$s $6$s $7$s $85s &9$s" 
) 

LOCATION 's3://elasticmapreduce/samples/pig - apache/input/'; 


其 中 ,LOCATION 参数 指定 Amazon S3 中 一 组 示例 Apache 日 志文 件 的 位 置 。 为 了 分 析 我 
们 自己 的 Apache Web 服务 器 日 志文 件 ,需要 将 此 命令 中 的 URL 替换 为 Amazon S3 中 我 
们 自己 的 日 志文 件 的 位 置 ,可 以 选 pique 创建 集群 时 自动 生成 的 日 志文 件 路 径 ,或 是 我 们 
上 传 的 有 关 Apache Web 的 日 志文 件 。 在 AWS 控制 台中 进入 “存储 和 内 容 分 发 "下 的 “S3” 
中 找到 对 应 的 文件 路 径 。 例 如 ,如 图 3-59 ee: 本 案例 的 文件 路 径 为 


aws 一 logs- x*xxxxxxxx¥ — cn- north- 1/elasticmapreduce/webLogsSample 
因此 本 案例 输入 
LOCATION 's3:// aws- logs 一 x*#x*xxxxx#¥ — cn- north- 1/elasticmapreduce/webLogsSample /' 


在 hive 命令 提示 符 下 ,粘贴 该 命令 (在 终端 窗口 中 使 用 Ctrl 十 Shift 十 V 组 合 键 或 在 
PuTTY 窗口 中 右 击 ) ,然后 按 Enter 键 。 当 命令 完成 时 ,我 们 将 看 到 如 图 3-60 所 示 提 示 。 


图 3-60 创建 Hive # 
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步骤 7. 查询 Hive 和 分 析 数 据 

可 以 使 用 Hive 查询 Apache 日 志文 件数 据 。Hive 会 将 查询 转换 为 Hadoop 
MapReduce 作业 并 在 Amazon EMR 集群 上 运行 该 作业 。 当 Hadoop 作业 运行 时 ,将 显示 状 
态 消息 。Hive SQL 是 SQL 的 一 个 子 集 , 了 解 SQL ,就 可 以 轻松 创建 Hive 查询 。 以 下 是 一 
些 查询 示例 。 

1) 统计 日 志文 件 中 的 行 数 ( 见 图 3-61) 


select count(1) from serde regex; 


图 3-61 统计 日 志文 件 中 的 行 数 


如 上 图 所 示 ,倒数 第 二 行 输出 的 是 我 们 查询 的 结果 ,日 志文 件 中 的 行 数 为 1 948 789 行 。 
2) 返回 五 行 日 志文 件数 据 中 的 所 有 字段 ( 见 图 3-62) 


select * from serde regex limit 5; 


图 3-62 返回 五 行 日 志文 件数 据 中 的 所 有 字段 
3) 统计 来 自 TP 地 址 为 59. 46. 212. 74 的 主机 的 请 求 数 ( 见 图 3-63) 


select count(1) from serde regex where host = "59.46.212.74"; 


如 图 3-63 所 示 ,来 自 该 IP 地 址 的 主机 的 请 求 数 为 5569 。 

步骤 8: 清除 集群 

为 了 防止 账户 产生 额外 费用 ,可 以 按照 以 下 步 又 清除 此 实验 创建 的 AWS 资源 。 
1) 断 开 与 主 节 点 的 连接 

CD 在 您 的 终端 窗口 或 PuTTY 窗口 中 ,请 按 Ctrl+C 键 以 退出 Hive. 
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图 3-63 ”统计 来 自 IP 地 址 为 59. 46. 212. 74 的 主机 的 请 求 数 


(2) 在 SSH 命令 提示 符 下 ,运行 exit。 

(3) 关闭 终端 窗口 或 PuTTY 窗口 

2) 终止 集群 

(1) 打开 Amazon EMR 控 

(2) 单 击 Cluster List (集群 列表 ) 

(3) 选择 集群 名 称 , 然 后 单 击 Terminate (终止 ) 按 钮 。 当 系统 提示 您 确认 时 , 单 击 “ 确 
认 ”" 按 钮 终止 。 


la 


3.6 阿里 云 


* 2009 年 成 立 ,总 部 位 于 中 国 杭州 的 阿里 云 ,已 经 成 长 为 中 国 最 大 的 云 服 务 提供 商 。 
阿里 云 独立 开发 出 一 套 完整 的 云 计算 平 台 一 一 飞天 平台 ,并 初步 形成 了 一 套 比较 完整 的 开 
放 服 务 ,如 弹性 计算 服务 (Elastic Compute Service. ECS) 开放 存储 服务 (Open Storage 
Service. OSS) ,开放 结构 化 数据 服务 (Open Table Service. OTS) .开放 数据 处 理 服务 (Open 
Data Processing Service. ODPS) ,关系 型 数据 库 服务 (ApsaraDB for RDS,RDS) 等 。 


3.6.1 飞天 开放 平台 架构 


阿里 云 计 算 有 限 公司 (简称 "阿里 云 ”) 成 立 于 2009 年 9 月 10 日 .致力 于 打造 云 计算 的 
基础 服务 平台 ,注重 为 中 小 企业 提供 大 规模 、 低 成 本 高 可 靠 的 云 计算 应 用 及 服务 。 飞 天 是 
由 阿里 云 开发 的 一 个 大 规模 分 布 式 计 算 系 统 , 其 中 包括 飞天 内 核 和 飞天 开放 服务 。 飞 天 内 
核 负 责 管理 数据 中 心 Linux 集群 的 物理 资源 ,控制 分 布 式 程序 运行 ,隐藏 下 层 故 障 恢 复 和 数 
据 宛 余 等 细节 ,有 效 提供 弹性 计算 和 负载 均衡 。 如 图 3-64 所 示 , 飞 天 体系 架构 主要 包含 四 
大 部 分 : 1) 资 源 管理 \ 安 全、 远程 过 程 调用 等 构建 分 布 式 系统 常用 的 底层 服务 ; 2) 分 布 式 文 
件 系 统 ; 3) 任 务 调度 ; 4) 集 群 部 署 和 监控 。 飞 天 开放 服务 为 用 户 应 用 程序 提供 了 计算 和 存 
储 两 方面 的 接口 和 服务 ,包括 弹性 计算 服务 (Elastic Compute Service. ECS) 开放 存储 服务 
(Open Storage Service. OSS) ,开放 结构 化 数据 服务 (Open Table Service. OTS) 关系 型 数 
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据 库 服务 (Relational Database Service,RDS) 和 开放 数据 处 理 服务 (Open Data Processing 
Service, ODPS) ,并 基于 弹性 计算 服务 提供 了 云 服务 引擎 (AliCloud Engine,ACE) 作 为 第 三 
方 应 用 开发 和 Web 应 用 运行 和 托管 的 平台 。 


~ 
生态 支撑 


(zra ) ( 容器 服务 ) ( 资源 编排 服务 】 ( 开发 者 服务 ) 


内 容 分 发 】| 网 络 服务 】| 中 间 件 服务 ] ( 安全 服务 】 | 数据 服务 


一 全 人 弹性 计算 海量 存储 与 数据 库 数据 计算 Me 
Tabl Stream Analyti 

if | ERE | | Oss | store RDS || Ee) Ee DE | 

中 

k 盘古 | [7 5 
天 理 分 布 式 存储 ( 分 布 式 应 用 调度 A ay 
iE Al ee 

E: GR [71 | | | E 

fi | 远程 过 程 调用 ) | 安全 管理 ote vitm £ 

zz 

g Linux 高 性 能 通用 服务 器 集群 

全 球 部 署 的 11 个 地 区 ， 几 十 个 数据 中 心 


图 3-64 飞天 开放 平台 架构 图 


按照 四 层 体 系 结构 来 看 ,飞天 平台 的 最 底层 是 全 球 部 署 的 11 个 地 区 和 几 十 个 数据 中 
心 , 这 些 数 据 中 心里 是 安装 了 Linux 操作 系统 的 通用 高 端 服务 器 。 如 飞天 开放 平台 架构 图 
所 示 ,橙色 组 件 组 成 了 大 规模 通用 计算 平台 ,最 底下 四 个 橙色 块 ( 夸 父 远 程 过 程 调 用 、 安 全 管 
理 、 女 娲 分 布 式 协 同和 伏 义 资源 管理 ) 代 表 构 建 分 布 式 系 统 最 基本 的 组 件 。 盘 古 分 布 式 存 
储 , 简 单 来 说 ,就 是 把 所 有 集群 中 的 硬盘 组 织 成 一 个 单个 的 文件 系统 。 同 时 ,两 侧 分 别 是 天 
基 的 数据 中 心 管理 ,分 布 式 部 署 ,以 及 神农 分 布 式 监控 。 整 个 系统 架构 里 面部 署 和 监控 也 是 
核心 系统 的 一 部 分 ,能 实现 7X24h 不 间断 的 部 署 和 监控 , 秒 级 监控 所 有 指标 判断 是 否 有 问 
题 并 且 实 时 修复 。 

中 间 蓝 色 一 层 是 核心 的 资源 型 服务 组 件 ,大 概 分 为 三 类 。 一 是 弹性 计算 ,简单 理解 就 是 
将 物理 机 切 分 成 虚拟 服务 器 的 概念 。 二 是 海量 存储 的 数据 库 , 其 中 OSS 是 存储 无 结构 的 数 
据 如 视频 .照片 .音乐 之 类 的 ,Table Store 可 以 认为 是 半 结 构 化 存储 ,RDS 则 是 关系 型 数据 
库 服务 。 三 是 数据 计算 , 它 则 分 为 多 维度 准 实时 数据 的 查询 服务 、 实 时 流 计算 处 理 服 务 和 大 
规模 批量 计算 服务 。 

在 核心 的 资源 型 服务 组 件 上 面 还 有 一 些 端 到 端 .基于 云 的 应 用 所 需要 的 核心 服务 ,例如 
内 容 分 发 CDN 、 网 络 服务 .安全 服务 数据 服务 等 。 网 络 服务 ,包括 VPC 域名 服务 和 VPN. 
中 间 件 服务 ,包括 消息 队列 工作 流 等 。 数 据 服务 , 则 包括 如 人 工 智 能 .语音 识别 、 翻 译 、 图 像 
识别 之 类 。 

最 上 层 则 是 生态 支撑 ,容器 服务 可 以 支持 那些 基于 容器 的 微服 务 架 构 ,或 者 是 编排 服务 
帮助 开发 者 在 云 上 开展 资源 的 编排 。 还 有 云 市 场 ,可 以 认为 是 云 上 的 AppStore, 开 发 者 可 
以 把 他 们 的 应 用 注册 在 云 市 场 里 ,使 用 者 可 直接 注册 使 用 。 还 有 开发 者 服务 ,开发 者 很 容易 
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监控 诊断 他 们 的 应 用 并 且 发 现 问 题 和 调试 。 

在 飞天 体系 结构 中 ,最 关键 技术 是 : 分 布 式 系统 底层 服务 、 分 布 式 文件 系统 、 任 务 调度 
和 集群 监控 和 部 署 。 其 中 ,分 布 式 系 统 底层 服务 : 主要 提供 分 布 式 环境 下 所 需要 的 协调 服 
务 ( 女 娲 ). 远 程 过 程 调用 ( 夸 父 ), 以 及 提供 系统 安全 的 钟 填 模 块 。 分 布 式 文件 系统 : 主要 提 
供 一 个 海量 的 、 可 靠 的 ,可 扩展 的 数据 存储 服务 ,将 集群 中 各 个 节点 的 存储 能 力 聚 集 起 来 ,并 
能 够 自动 屏蔽 软 硬 件 故障 ,为 用 户 提供 不 间断 的 数据 访问 服务 。 任 务 调度 : 为 集群 系统 中 
的 任务 提供 调度 服务 ,同时 支持 强调 响应 速度 的 在 线 服务 和 强调 处 理 数据 吞吐 量 的 离线 任 
务 。 集 群 监控 和 部 署 : 对 集群 的 状态 和 事件 进行 监控 ,对 异常 事件 产生 警报 和 记录 ; 为 运 
维和 人 员 提 供 整个 飞天 系统 以 及 上 层 应 用 的 部 署 和 配置 管理 ,支持 在 线 集群 扩容 和 应 用 服务 
的 在 线 升级 。 接 下 来 详细 介绍 这 5 个 技术 。 

1. 分 布 式 基础 架构 

命名 服务 一 一 女 娲 。 女 娲 系统 为 飞天 平台 提供 高 可 用 的 协调 服务 ,是 整个 飞天 系统 的 
核心 服务 , 它 的 作用 类 似 于 文件 系统 的 树 形 命名 空间 使 分 布 式 进程 互相 协同 工作 。 女 娲 系 
统 与 Google 的 chubby 和 Hadoop 的 zookeeper 系统 的 功能 与 实现 相似 。 

远程 过 程 调用 一 夸 父 。 夸 父 是 飞天 平台 中 负责 网 络 通信 的 组 件 , 它 提供 了 一 个 远程 
过 程 调用 的 接口 ,简化 编写 基于 网 络 的 分 布 式 应 用 。 其 中 ,异步 调用 时 ,不 等 接收 结果 便 会 
立即 返回 ,用 户 必 须 通 过 显 式 调用 接收 函数 取得 请 求 结果 ; 同步 调用 时 则 会 等 待 ,直到 接收 
到 结果 才 返 回 。 在 实现 中 ,同步 调用 是 通过 封装 异步 调用 来 实现 的 。 

安全 管理 一 一 钟 料 。 飞 天 操作 系统 中 安全 管理 的 机 制 提 供 了 以 用 户 为 单位 的 身份 认证 
和 授权 ,以 及 对 集群 数据 资源 和 服务 进行 的 访问 控制 。 

2. 分 布 式 文件 系统 

飞天 操作 系统 中 数据 存储 是 由 分 布 式 文件 系统 完成 的 。 盘 古 与 Google 文件 系统 和 
Hadoop 的 HDFS 的 设计 目标 有 一 致 的 部 分 ,都 是 将 大 量 廉价 机 器 的 存储 资源 聚合 在 一 起 ， 
为 用 户 提供 大 规模 、 高 可 靠 、 高 否 吐 量 、 高 可 用 和 可 扩展 的 存储 服务 ,是 集群 操作 系统 中 的 重 
要 组 成 部 分 。 盘 古 还 能 很 好 地 支持 在 线 应 用 的 低 延 时 需求 ,这 是 Google 文件 系统 和 
Hadoop 的 HDFS 所 不 具备 的 。 

3. 任务 调度 

如 图 3-65 Bron , 伏 义 是 飞天 平台 的 调度 系统 ,同时 也 为 应 用 开发 提供 了 一 套 编 程 基础 
框架 。 与 盘古 一 样 , 伏 义 也 必须 在 一 个 系统 架构 下 才能 同时 支持 强调 响应 速度 的 在 线 服务 
和 强调 处 理 数 据 乔 吐 量 的 离线 任务 。 关 于 在 线 服务 调度 ,在 飞天 平台 上 ,每 个 具体 的 
service 都 有 一 个 service master 和 多 个 不 同 角色 的 service worker, 它 们 一 起 协同 工作 完成 
整个 服务 功能 。 关 于 离线 任务 调度 ,在 飞天 平台 上 ,一 个 离线 任务 的 执行 过 程 被 抽象 为 一 个 
有 向 无 环 图 : 图 上 每 个 顶点 对 应 一 个 task ,每 条 边 对 应 一 个 pipeline。 一 个 连接 的 两 个 task 
的 pipeline 表示 前 一 个 task 的 输出 是 后 一 个 task 的 输入 。 

4. 集群 监控 一 一 神农 

神农 是 飞天 平台 上 负责 信息 收集 、 监 控 和 诊断 的 系统 。 它 通过 在 每 台 物 理 机 器 上 部 署 
轻 量 级 的 信息 采集 模块 ,获取 各 个 机 器 的 操作 系统 与 应 用 软件 运行 状态 ,监控 集群 中 的 故 
障 , 并 通过 分 析 引 人 擎 对 整个 飞天 系统 的 运行 状态 进行 评估 。 神 农 系 统 包 括 Master, 
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图 3-65 ” 伏 义 体系 结构 图 


Inspector 和 Agent 三 部 分 。 

Master; 负责 管理 所 有 神农 Agent, 并 对 外 提供 统一 的 接口 处 理 神农 用 户 的 订阅 
(Subscription) 请 求 ,在 集群 中 只 要 一 个 Master, 

Inspector; 部 署 在 每 一 冷 机 器 上 的 进程 ,负责 采集 当前 机 器 和 进程 的 通用 信息 ,并 在 TE 
时 发 送 给 该 机 器 上 的 神农 Agent。 

Agent; 部 署 在 每 台 物 理 机 器 的 后 台 (Daemon) 程 序 , 负 责 接 收 来 自 应 用 的 Inspector 写 
入 的 信息 。 

5. 飞天 的 技术 特色 

同一 个 平台 同时 支持 离线 、 在 线 服 务 , 如 阿里 巴巴 集团 子 公司 神 马 搜索 就 是 建 在 飞天 
上 ,他们 会 进行 千 亿 级 别 网 页 的 离线 处 理 , 索 引 所 有 网 页 ,大 概 每 一 两 个 月 把 整个 索引 翻 一 
遍 。 此 外 ,拥有 多 网 页 的 同时 同样 拥有 整个 网 页 之 间 关 联 的 连接 图 ,也 是 千 亿 级 别 的 节点 ， 
并 且 有 百 亿 级 别 的 索引 可 以 在 线 查询 。 在 线 方面 ,基于 飞天 平台 的 邮箱 服务 每 天 处 理 亿 量 
级 的 邮件 ,日 发 送 邮件 达到 千 万 量 级 ,所 有 发 送 和 接收 在 10ms 级 完成 。 

飞天 单 集群 达到 了 万 台 规 模 、 百 PB 级 别 存储 、10 万 级 别 的 CPU 合 数 ; 整个 架构 设计 
里 面 没 有 单 点 ,确保 了 整个 系统 可 用 性 达到 99. 95%; 飞天 应 用 设 有 默认 等 级 ,通过 多 副本 
元 余 算 法 ,数据 可 靠 性 极 强 ; 完全 分 布 式 部 署 .监控 和 诊断 。 


3.6.2 开放 云 计算 服 务 ECS 


弹性 计算 服务 (ECS) 基 于 飞天 大 规模 分 布 式 计算 系统 ,以 虚拟 化 方式 将 一 台 物 理 机 分 
成 多 台 云 服务 器 ,向 广大 互联 网 站 长 和 开发 者 提供 可 伸缩 的 计算 资源 ,其 体系 结构 如 图 3-66 
所 示 。 

在 数据 中 心中 ,大 量 的 计算 节点 和 存储 节点 通过 飞天 分 布 式 计算 系统 将 物理 资源 整合 
为 一 个 整体 ,上 层 通过 XEN 虚拟 化 技术 ,对 外 提供 弹性 计算 服务 。ECS 包含 两 个 重要 模 
块 : 计算 资源 模块 和 存储 资源 模块 。 ECS 的 计算 资源 指 CPU 内存、 带宽 等 资源 ,主要 通过 
将 物理 服务 器 (宿主 机 ) 上 的 计算 资源 虚拟 化 ,然后 再 分 配给 云 服务 器 使 用 。 云 服务 器 的 存 
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图 3-66 ECS 的 体系 结构 图 


储 资源 采用 了 飞天 的 大 规模 分 布 式 文件 系统 ,将 整个 集群 中 的 存储 资源 虚拟 化 后 对 外 提供 
服务 。 用 户 数据 在 集群 中 存储 多 个 副本 ,任意 一 份 副本 损坏 后 系统 都 可 以 自动 恢复 到 多 个 
副本 ,使 用 户 数据 达到 99. 999% 的 可 靠 性 。 用 户 可 以 使 用 SSH(ECS 为 Linux 系统 ) 或 者 远 
程 桌面 (ECS 为 Windows 系统 ) 直 接 远程 登录 并 管理 云 服务 器 。 

弹性 服务 可 伸缩 架构 的 优点 : 

(1) 自助 管理 : 云 服务 器 的 配置 ,管理 ,升级 监控 工作 通过 API 和 网 站 页 面 实现 自助 
操作 。 大 大 降低 了 维护 成 本 ,提高 运 维 响 应 速度 。 

D 数据 安全 性 : 云 服务 器 的 磁盘 数据 存放 在 云 存储 空间 中 ,数据 自动 实现 分 布 式 存 
储 ,“ 永 不 丢失 ”。 

(3) 故障 恢复 : 当 宿 主 物理 机 发 生 故 障 时 ,平台 能 够 自动 迁移 云 服务 器 ,并 且 将 其 数据 
恢复 到 最 后 一 刻 的 状态 。 

CA) 便捷 的 快照 与 回 深 : 云 服 务 器 的 磁盘 支持 快照 功能 。 可 以 根据 需要 ,将 磁盘 数据 
快速 回 滚 到 之 前 的 任 一 快照 版 本 。 

(5) 安全 域 : 将 一 个 数据 中 心 分 成 若干 个 安全 域 , 每 个 安全 域 可 独立 设置 防火 墙 策略 。 

(6) 防 DDOS 攻击 : 系统 自动 检测 DDOS 攻击 特征 ,根据 攻击 规模 和 策略 设置 进行 流 
量 清洗 或 者 黑洞 处 理 。 

CD 在 多 台 服 务 器 间 分 配 请 求 流量 ,负载 均衡 器 自身 实现 了 自 适应 扩展 。 


3.6.3 开放 存储 服务 OSS 和 CDN 


开放 存储 服务 (Open Storage Service.OSS) 是 阿里 云 对 外 提供 的 海量 .安全 、 低 成 本 和 
高 可 靠 的 云 存储 服务 ,如 图 3-67 所 示 OSS 概念 图 如 图 3-68 所 示 。 开 放 存 储 服 务 为 广大 站 
长 .开发 者 ,及 大 容量 存储 需求 的 企业 或 个 人 ,提供 海量 安全 、 低 成 本 ,高 可 靠 性 的 云 存储 服 
务 。 通 过 简单 的 REST 接口 ,存放 网 站 或 应 用 中 的 图 片 、 音 频 、 视 频 、 附 件 等 较 大 文件 。 当 
用 户 面 对 大 量 静 态 文件 (如 图 片 . 视 频 等 ) 访 问 请 求 和 数据 存储 时 ,使 用 OSS 可 以 彻底 解决 
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存储 的 问题 ,并 且 极 大 地 减轻 原 服务 器 的 带宽 负载 。 使 用 CDN 可 以 进一步 加 快 网 络 应 用 
内 容 传 递 到 用 户 端 的 速度 。 
GET PUT HEAD DELETE 
Ne 


REST 协 议 处 理 | Co) 安全 认证 、 请 求 处 理 


Key-Value 引 擎 ”| C— — p» 数据 对 象 的 结构 化 


云 计算 平台 CO 数据 匈 余 、 故 障 恢 复 
图 3-67 云 存储 服务 的 架构 图 


uckei 
用 户 AccessID 、 


AccessKey 
GET 


BucketC 


Service 
图 3-68 OSS 概念 图 


Service: 对 于 某 用 户 来 说 ,就 是 OSS 提供 给 该 用 户 的 虚拟 存储 空间 。 用 户 可 以 在 这 个 
存储 空间 中 拥有 一 个 或 者 多 个 Bucket. 

Access ID & Access Key CAPI 密 钥 ): 用 户 注册 OSS 时 ,系统 会 给 用 户 分 配 一 对 
Access ID 和 Access Key, PRH ID 对 ,用 于 标识 用 户 ,为 访问 OSS 做 签名 验证 。 当 用 户 通 过 
oss. aliyun. com 成 功 创建 OSS 存储 服务 后 ,可 以 进入 “管理 中 心 ”>“ 获 取 API 密 钥 ”得 到 
Access ID & Access Key。 为 了 更 深入 理解 OSS, 下 面 给 出 一 个 授权 访问 控制 的 应 用 场景 ， 
如 图 3-69 所 示 。 


oo 应 用 服务 器 
we 
T 
设备 " 阿里 云 开放 
Ed 存储 服务 
通过 签名 URL 读 写 数 据 对 象 


图 3-69 授权 访问 控制 图 
Step]: 服务 器 计算 签名 URL 
url = oss.sign url("GET","bucketl","oss. jpg",60s); 
Step2; 用 户 通过 签名 URL 读数 据 对 象 
< img 


src = "http://storage. aliyun. com/bucket1/oss. jpg?0SSAc 
cessKevlId = v6h7nbcothehvcp?7 j lnwmrw9&Expires = 1334 
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571637&Signature = MwECjsQNnTB5RdNnKY5HdU37H 
mM % 3D" 
/> 


HPE URL 中 加 入 签名 信息 ,在 URL 中 实现 签名 ,至 少 包含 Signature, Expires, 
OSSAccessKeyId 三 个 参数 。Expires 这 个 参数 的 值 是 一 个 UNIX 时 间 , 用 于 标识 该 URL. 
的 超过 时 间 。 如 果 OSS 接收 到 这 个 URL 请 求 的 时 候 晚 于 签名 中 包含 的 Expires 参数 时 ， 
则 返回 请 求 超时 的 错误 码 。 


3.6.4 开放 结构 化 数据 服务 OTS 


开放 结构 化 数据 服务 (Open Table Service. OTS) 适 合 存储 海量 的 结构 化 数据 ,并 且 提 
供 了 高 性 能 的 访问 速度 。 当 数据 量 猛 增 时 ,传统 的 关系 型 数据 需要 资深 的 DBA 才能 搞定 ; 
而 使 用 OTS, 数 据 再 怎么 增长 , 它 都 自动 默默 搞定 所 有 事情 。 高 效 可 扩展 的 NoSQL 服务 面 
向 海量 结构 化 和 半 结 构 化 数据 的 存储 ; 实时 读 写 操作 满足 强 一 致 性 ; 支持 强 数据 类 型 ; 通 
过 REST API 提供 服务 ,提供 多 种 语言 SDK; 提供 用 户 级 别 的 数据 隔离 ,访问 控制 ,权限 
管理 。 

OTS 服务 的 系统 架构 分 为 四 层 , 最 上 层 是 应 用 程序 ,应 用 通过 调用 各 种 语言 的 SDK 与 
OTS 服务 进行 交互 ; 第 二 层 是 用 户 服务 层 ,这 一 层 完成 的 功能 是 对 应 用 发 送 的 请 求 进行 协 
议 处 理 、 身 份 权限 的 校 验 资源 计量 和 请 求 到 后 端 存储 引擎 节点 的 路 由 ; 第 三 层 是 存储 引擎 
层 ,负责 表 分 区 的 扩展 和 管理 .负载 均衡 ,存储 数据 和 索引 的 管理 ,故障 的 处 理 以 及 高 可 用 容 
灾 等 方面 ; 最 下 面 一 层 是 飞天 操作 系统 ,负责 管理 底层 的 硬件 资源 ,向 上 提供 统一 的 分 布 式 
存储 (盘古 ) 和 计算 ( 伏 义 ),OTS 架构 图 如 图 3-70 所 示 。 其 中 下 面 三 层 运行 在 阿里 云 数据 
中 心 的 物理 集群 上 ,对 应 用 程序 透明 ,最 上 面 一 层 是 用 户 的 程序 ,通常 运行 在 阿里 云 的 ECS 
服务 器 以 获得 更 好 的 访问 OTS 的 性 能 ,当然 也 可 以 运行 在 用 户 自己 的 物理 服务 器 或 者 移动 
设备 上 (我 们 目前 正在 开发 移动 端的 OTS SDK ,包括 Android 和 iOS). 


客户 应 用 程序 
Java/.NET/Python/PHP SDK 


用 户 服务 层 
协议 处 理 ， 请 求 认证 ， 权 限 管理 ， 资 源 计量 ， 请 求 路 由 


| 存储 引擎 层 


规模 拓展 ， 负 载 均 衡 ， 存 储 索 引 ， 故 障 恢复 ， 高 可 用 容 灾 


分 布 式 文件 系统 ， 集 群 资源 管理 


3-70 OTS 架构 图 


下 面 提供 一 个 OTS 的 应 用 实例 : 邮箱 应 用 的 元 数据 存储 ,如 图 3-71 所 示 。 
相应 代码 如 下 : 
CreateTable: 
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User Table 

用 户 ID 用 户 名 已 用 容量 总 容量 

U0001 tom@aliyun.com | 45000 100000 

U0002 eric@aliyun.com | 100000 1000000 

用 户 ID 接收 时 间 [ARA 邮件 尺寸 | 主题 是 否 已 读 

U0001 1998-11-1 | eric@aliyun.com | 10000 Hello Y 

U0001 2011-10-21 | alice@aliyun.com| 20000 Lunch together| N 

U0001 2011-10-24 | eric@aliyun.com | 15000 Re: Hello 区 

U0002 1999-12-25 |tom@aliyun.com | 21000 Meeting Y 
LL View: 调整 pK 列 顺序 ， 改 变 排 序 规则 

用 户 ID 发 件 人 接收 时 间 | 邮件 尺寸 

U0001 alice@aliyun.com| 2011-10-21 | 20000 

U0001 eric@aliyun.com | 1998-11-1 10000 

U0001 eric@aliyun.com | 2011-10-24 | 15000 

U0002 tom@aliyun.com | 1999-12-25 | 21000 


图 3-71 OTS 实例 图 


from ots import * 

ots conn = OTSConnection( 'http: //service. ots. aliyun. com:80', HN EE 
'8vyl4gd2blhb87088bslslfa', # AccessID 
"KXXXXXXXXXXXXXXXXXXXXXXXXXXXXX = ') # AccessKey 

table_info = {} 


table info[ TableName'] = 'OTSTestTable' PREKE 
table info['PrimaryKey'] = [{'Name':'ID', 'Type': 'STRING'}] # 设 置 表 的 主键 
table info[ 'PagingKeyLen'] = 0 # 设 置 分 页 键 
table meta= TableMeta(table info,[]) * Hii TableMeta 对 象 
ots conn.create table(table meta) sors 创建 表 
PutData: 
insert pk- [{'Name': 'ID', 'Value': '0001')] # 设 置 要 插入 行 的 主键 
columns = [ { 'Name' : 'UserName', 'Value': 'Alice'}, 
{'Name': 'Gender', 'Value': 'Famale']] # 设 置 要 插入 的 行 和 列 


ots conn.put data('OSTTestTable', insert pk,columns) # {# OTS 在 OTSTestTable 表 中 写 和 一行 


GetRowsByRange: 

query_range = { Name': 'ID', 'Range': ( 'Begin': '0', 'End':'z')] # 设 置 要 查询 的 范围 

rows = ots conn.get rows by range( 'OTSTestTable', [], # ìk OTS 读 取 OTSTable # 
query range, [],100) # 读 取 指定 的 范围 ,并 读 取 所 有 的 列 , 结 果 集 中 返回 前 100 条 


OTS 具有 的 优势 : 基于 飞天 大 规模 分 布 式 计算 系统 ,数据 有 多 个 备份 ; 四 单 表 的 数 


据 规模 达 TB 级 ,每 秒 万 次 并 发 访问 ; 回 读 写 访问 的 平均 时 延 在 ms 级 ; @ 表 结构 无 须 固 
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E: @ 全 托管 的 服务 , 零 运 维 ,可 随时 随地 访问 。 
3.6.5 关系 型 数据 库 (RDS) 


关系 型 数据 库 是 一 个 基于 高 稳定 、 大 规模 平台 的 商用 关系 型 数据 库 服 务 。 其 帮助 个 人 
与 企业 用 户 解决 费时 、 费 力 的 数据 库 管理 ,节约 硬件 成 本 和 维护 成 本 。 与 现 有 商用 MySQL 
和 MS SQL Server 完全 兼容 。 

基本 功能 主要 包括 日 常 操作 : 创建 .报警 ,监控 ; 备份 恢复 : 根据 用 户 自 定义 备份 策略 
进行 自动 备份 ,同时 对 备份 数据 可 进行 查看 、 还 原 、 下 载 等 操作 ; 弹性 升级 : 例如 与 聚 石塔 
合作 , 聚 石塔 是 支撑 天 猫 的 一 个 重要 服务 ,在 双 十 一 时 ,可 以 根据 服务 的 压力 ,动态 调整 配置 
和 资源 ; 安全 设置 : RDS 设 有 白 名 单 ,同时 还 具有 防 DDOS 攻击 、 数 据 清 洗 、 密 码 暴力 攻击 
检测 的 功能 ; 慢 SQL 查询 : 系统 会 记录 下 执行 时 间 超 过 1s SQL 语句 ; 故障 恢复 : 采用 双 
机 热 备 方式 ,在 遇 到 故障 时 30s 内 完成 切换 ,用 户 只 需要 在 程序 设置 好 自动 重 联 即 可 ; 在 线 
迁移 : 主要 只 是 将 某 个 实例 在 线 迁 移 到 物理 机 上 ,迁移 过 程 中 对 业务 不 会 造成 影响 。 

RDS 的 几 点 不 同 : 除 价 格外 ,RDS 采用 多 实例 ,故障 恢复 在 30s 内 自动 完成 ; 在 性 能 
上 ,可 以 最 高 达到 12000IOPS, 安 全 ,水 平 拆 分 提供 分 布 式 RDS, 便 于 用 户 做 水 平 拆 分 和 水 
平 扩展 。 


3.6.6 开放 数据 处 理 服务 (ODPS) 


开放 数据 处 理 服务 (Open Data Process Service. ODPS) 的 诞生 是 为 了 深度 挖掘 出 海量 
数据 (如 HTTP Log) 中 蕴藏 的 价值 。2014 年 7 月 1 日 MaxCompute( 原 ODPS 服务 ) 正 式 
对 外 开放 ,这 也 标志 着 阿里 巴巴 成 为 世界 上 第 一 家 对 外 公开 提供 SK 处 理 能 力 的 公司 。 大 
数据 计算 服务 (MaxCompute) 是 一 种 快速 ,完全 托管 的 PB/EB 级 数据 仓库 解决 方案 ， 
MaxCompute 具备 万 台 服 务 器 扩展 能 力 和 跨 地 域 容 灾 能 力 , 是 阿里 巴巴 内 部 核心 大 数据 平 
台 , 承 担 了 集团 内 部 绝 大 多 数 的 计算 任务 ,支撑 每 日 百 万 级 作业 规模 。MaxCompute 基本 的 
体系 结构 如 图 3-72 所 示 ,最 底层 就 是 在 物理 机 器 之 上 打造 的 提供 统一 存储 的 盘古 分 布 式 文 
件 存储 系统 ; 在 盘古 之 上 一 层 就 是 伏 义 分 布 式 调度 系统 ,这 一 层 将 包括 CPU 内存 、 网 络 以 
及 磁盘 等 在 内 的 所 有 计算 资源 管理 起 来 ; 再 上 一 层 就 是 统一 的 执行 引擎 也 就 是 
MaxCompute 执行 引擎 ; 而 在 执行 引擎 之 上 会 打造 各 种 各 样 的 运算 模式 ,比如 流 计算 、 图 计 
算 、 离 线 处 理 . 内 存 计算 以 及 机 器 学 习 等 ; 在 这 之 上 还 会 有 一 层 相关 的 编程 语言 ,也 就 是 
MaxCompute 语言 ; 在 语言 上 面 希望 为 各 应 用 方 能 够 提供 一 个 很 好 的 平台 ,让 数据 工程 师 
能 够 通过 平台 开发 相关 的 应 用 ,并 使 得 应 用 能 够 快速 地 在 分 布 式 场景 里 面 得 到 部 署 运 行 。 

ODPS 以 REST API 的 形式 ,支持 用 户 提交 类 SQL 的 查询 语言 ,对 海量 数据 进行 处 理 。 
在 API 之 上 ,还 提供 SDK 开发 包 和 命令 行 工具 。 与 传统 的 数据 仓库 工具 相 比 ,ODPS 的 处 
理 能 力 强大 成 本 低廉 ,伸缩 灵活 。MaxCompute 包括 如 下 功能 : 

(1) 批量 .历史 数据 通道 

Tunnel 是 MaxCompute 向 用 户 提供 的 数据 传输 服务 。 该 服务 水 平 可 扩展 ,支持 每 天 
TB/PB 级 别 的 数据 导入 导出 。 特 别 适合 于 全 量 数据 或 历史 数据 的 批量 导入 。Tunnel 提供 
T Java SDK, H MaxCompute 的 客户 端 工 具 中 ,有 对 应 的 命令 实现 本 地 文件 与 服务 数据 
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[spark API|[Beam EI Hive API | | m 


MaxCompute Language 
流 计 算 || 图 计算 || Batch || 内 存 计算 || 机 器 学 习 


MaxCompute Engine 
伏 闵 (分 布 式 调度 系统 ) 
盘古 (分 布 式 存储 系统 ) 


图 3-72 MaxCompute 架构 图 

的 互通 。 

(2) 实时 、 增 量 数据 通道 

针对 实时 数据 上 传 的 场景 ,MaxCompute 提供 了 另 一 套 名 为 DataHub 的 服务 。 该 服务 
具有 延迟 低 、 使 用 方便 的 特点 ,特别 适用 于 增 量 数据 的 导入 。Datahub 还 支持 多 种 数据 传输 
插件 ,例如 Logstash,Flume,Fluentd,Sqoop 等 。 同 时 支持 日 志 服 务 Log Service 中 的 日 志 
数据 的 一 键 投递 至 MaxCompute', 进 而 利用 大 数据 开发 套件 进行 日 志 分 析 和 挖掘 。 

(3) SQL 

MaxCompute SQL 采用 标准 的 SQL 语法 ,兼容 部 分 Hive 语法 。 在 语法 上 和 HQL 非 
常 接近 ,熟悉 SQL 或 HQL 的 编程 人 员 都 容易 上 手 。 另 外 ,MaxCompute 提供 更 高 效 的 计 
算 框架 支持 SQL 计算 模型 ,执行 效率 比 普 通 的 MapReduce 模型 更 高 。 需 要 注意 的 是 ， 
MaxCompute SQL 不 支持 事务 .索引 及 Update/Delete 等 操作 。 

(4) MapReduce 

MaxCompute 提供 Java MapReduce 编程 模型 。 值 得 注意 的 是 ,由 于 MaxCompute 并 
没有 开放 文件 接口 ,用 户 只 能 通过 它 所 提供 的 Table 读 写 数据 ,因此 MaxCompute 的 
MapReduce 模型 与 开源 社区 中 通用 的 MapReduce 模型 在 使 用 上 有 一 定 的 区 别 。 我 们 相 
[ri ,这 样 的 改动 虽然 失去 一 定 的 灵活 性 ,例如 不 能 够 自 定义 排序 及 哈 希 算法 ,但 却 能 够 简化 
开发 流程 ,免除 很 多 琐碎 的 工作 。 更 为 重要 的 是 ,MaxCompnute 还 提供 了 基于 MapReduce 
的 扩展 计算 模型 , 即 MR2。 在 该 模型 下 ,一 个 Map 函数 后 ,可 以 接 入 连续 多 个 Reduce 
函数 。 

(5) Graph 

对 于 某 些 复杂 的 迭代 计算 场景 ,如 K-Means, PageRank 等 ,如 果 仍 然 使 用 MapReduce 
完成 这 些 计算 任务 将 是 非常 耗 时 的 。MaxCompute 提供 的 Graph 模型 能 够 非常 好 地 完成 
这 一 类 计算 任务 。 

(6) 安全 

MaxCompute 是 一 个 多 租户 的 计算 平台 。 默 认 情况 下 ,各 租户 间 数 据 不 共享 ,彼此 隔 
离 , 但 用 户 可 以 通过 MaxCompute 提供 的 授权 机 制 将 数据 共享 给 项 目 组 其 他 人 。 
MaxCompute 以 二 维 表格 式 存储 数据 .所 有 数据 均 以 表格 式 存 储 , 不 暴露 文件 系统 。 并 采用 
列 压缩 存储 格式 , 极 高 的 数据 压缩 比 可 极 大 节省 用 户 成 本 。 通 常情 况 下 , MaxCompute 存储 
具备 5 倍 压缩 的 能 力 。 
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ODPS 提供 了 SQL 与 MapReduce 两 种 API 供用 户 开发 调用 。ODPS SQL 采用 类 似 
SQL 的 语法 处 理 大 规模 (PB 级 别 ) 数 据 ,适合 于 处 理 强 调 数 据 知 吐 量 的 离线 任务 。ODPS 
SQL 提供 了 大 量 操 作 海 量 数据 的 SQL 语法 支持 (APD ,例如 ,创建 ,删除 表 和 视图 的 DDL 
语法 ,更 新 表 的 DML 语法 等 。 为 了 方便 用 户 完成 数据 处 理 的 各 类 任务 ,ODPS SQL 还 提供 
了 很 多 高 级 功能 ,例如 ,窗口 函数 .用户 自 定义 函数 ,存储 过 程 等 。 与 数据 库 相 比 ,ODPS 
SQL 并 不 具备 数据 库 的 一 些 特征 ,包括 事务 和 主键 约束 。ODPS SQL 的 优势 在 于 能 够 快速 
处 理 海量 数据 , 它 能 够 将 多 个 SQL 语句 以 它们 之 间 的 数据 依赖 关系 组 成 一 个 工作 流 , 然 后 
以 执行 工作 流 的 方式 完成 复杂 的 数据 分 析 功 能 。 

阿里 云 的 海量 数据 存储 的 数据 库 中 ,OTS、ODPS、RDS 三 者 的 区 别 如 下 : 

1) OTS 服务 的 特点 是 大 规模 、 低 延 时 、 强 一 致 ,其 适用 场景 是 对 数据 规模 和 实时 性 要 
求 高 的 应 用 。 

2) ODPS 重点 面向 数据 量 大 (TB 级 别 ) 且 实时 性 要 求 不 高 的 OLAP(Online Analytical 
Processing) ,适用 于 构建 数据 仓库 、 海 量 数据 统计 、 数 据 挖掘 、 数 据 商 业 智能 等 应 用 。 

3) OTS 和 ODPS 可 以 配合 使 用 ,前 者 支持 大 规模 并 发 的 日 常 访问 (例如 铁路 售票 前 台 
系统 ) ,然后 每 隔 24 小 时 就 把 交易 数据 推 人 ODPS 支撑 的 数据 仓库 ,利用 后 者 进行 进一步 的 
业务 分 析 。 

4) 最 后 ,RDS 适合 较 小 数据 规模 的 常规 OLTP(online transactional processing) 应 用 。 
如 果 用 户 的 需求 是 把 所 有 关系 数据 库 服务 (例如 MySQL 和 SQL Server) 迁 移 到 云 平 台 上 ， 
主要 重视 兼容 性 ,可 以 选择 RDS. 


习题 


. 简 述 云 计 算 的 定义 。 

. 简 述 云 计算 的 体系 结构 。 

. 简 述 ACID Hig BASE 理论 与 CAP 理论 。 
. 简 述 云 计算 平台 的 存储 结构 。 

. 简 述 何 为 分 布 式 文件 系统 。 

. 简 述 MapReduce 计算 模型 的 原理 。 

. 简 述 一 致 性 哈 希 算法 与 Dynamo 环 的 原理 。 
. 畅谈 云 计算 在 未 来 的 应 用 。 
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由 于 云 计 算 环境 的 资源 分 配 与 任务 调度 问题 往往 比较 复杂 ,为 了 更 好 地 研究 云 计算 资 
源 分 配 与 任务 调度 算法 ,采用 模拟 仿真 的 方法 不 仅 可 以 简化 问题 ,而且 也 可 以 测试 算法 在 不 
同 云 环境 下 的 效果 ,从 而 更 好 地 设计 算法 和 进行 算法 优化 。 由 于 CloudSim 是 当前 云 计算 
模拟 仿真 最 流行 的 工具 ,在 本 章 将 首先 介绍 CloudSim 体系 结构 与 原理 以 及 基于 CloudSim 
的 云 计 算 编程 实践 ,然后 介绍 我 们 团队 研发 的 面向 云 计 算 多 资源 能 耗 仿真 工具 
MultiRECloudSim, 最 后 给 出 一 个 基于 Java 实现 的 云 计算 任务 调度 应 用 案例 。 


4.1 CloudSim 体系 结构 和 API 介绍 


4.1.1 CloudSim 体系 结构 


为 基于 互联 网 的 应 用 服务 提供 可 靠 、 安 全 容错、 可 持续 、 可 扩展 的 基础 设施 ,是 云 计 算 
的 主要 任务 。 由 于 不 同 的 应 用 可 能 存在 不 同 的 组 成 .配置 和 部 署 需求 ,云端 基础 设施 (包括 
硬件 、 软 件 和 服务 ) 上 的 应 用 及 服务 模型 的 负载 .能 源 性 能 (能 耗 和 散热 ) 和 系统 规模 都 在 不 
断 地 发 生变 化 ,因此 ,如 何 量化 这 些 应 用 和 服务 模型 的 性 能 (调度 和 分 配 策略 ) 成 为 一 个 极 富 
挑战 性 的 问题 。 为 了 简化 问题 ,澳大利亚 墨尔本 大 学 Rajkumar Buyya 领导 团队 开发 的 云 
计算 仿真 器 CloudSim, 它 的 首要 目标 是 在 云 基础 设施 (软件 、 硬 件 、 服 务 ) 上 ,对 不 同 应 用 和 
服务 模型 的 调度 和 分 配 策略 的 性 能 进行 量化 和 比较 ,达到 控制 使 用 云 计算 资源 的 目的 。 基 
于 云 计算 仿真 器 ,用 户 能 够 反复 测试 自己 的 服务 ,在 部 署 服务 之 前 调节 性 能 瓶颈 , 既 节 约 了 
大 量 资金 ,也 给 用 户 的 开发 工作 带 来 了 极 大 的 便利 。 

CloudSim 是 一 个 通用 、 可 扩展 的 新 型 仿真 框架 ,支持 无 缝 建 模 和 模拟 ,并 能 进行 云 计算 
基础 设施 和 管理 服务 的 实验 。 这 个 仿真 框架 有 如 下 特性 : 


第 4 章 云 计算 编程 实 中 


1) 支持 在 单个 物理 节点 上 进行 大 规模 云 计算 基础 设施 的 仿真 和 实例 化 。 

2) 提供 一 个 独立 的 平台 , 供 数 据 中 心 、 服 务 代理 ,调度 和 分 配 策略 进行 建 模 。 

3) 提供 虚拟 化 引擎 ,可 在 一 个 数据 中 心 节点 创建 和 管理 多 个 独立 ,协同 的 虚拟 化 服务 。 

4) 可 以 在 共享 空间 和 共享 时 间 的 处 理 核 心 分 配 策略 之 间 灵 活 地 切换 虚拟 化 服务 。 

CloudSim 方便 用 户 在 组 成 .配置 和 部 署 软件 前 评估 和 模拟 软件 ,减少 云 计算 环境 下 , 访 
问 基 础 设施 产生 的 资金 耗费 。 基 于 仿真 的 方法 使 用 户 可 在 一 个 可 控 的 环境 内 免费 地 反复 测 
试 他 们 的 服务 ,在 部 署 之 前 调节 性 能 瓶颈 。 

CloudSim 采用 分 层 的 体系 结构 ,CloudSim 的 构架 及 其 架构 组 件 如 图 4-1 所 示 。 


用 户 代码 
仿真 规格 zum] [用 户 请 求 | — … [mem 
调度 策略 用 户 或 数据 中 心 代理 

CloudSim 

他 任务 单元 ETT) 
虚拟 机 服务 任务 单元 执行 | — | 虚拟 机 管理 


云 服务 | [虚拟 机 分 配 | | CPU 分 配 | [ 内 存 分 配 ] [存储 空间 分 醒 [带宽 分 配 


云 资 源 事件 处 理 传感器 云 协调 器 数据 中 心 


网 络 网 络 拓扑 | 消息 延迟 计算 


图 4-1 分 层 的 CloudSim 体系 结构 


1. CloudSim 核心 模拟 引擎 

GridSim 原本 是 CloudSim 的 一 个 组 成 部 分 ,但 GridSim 将 SimJava 库 作 为 事件 处 理 和 
实体 间 消 息 传递 的 框架 ,而 SimJava 在 创建 可 伸缩 仿真 环境 时 暴露 出 如 下 不 足 : 

1) 不 支持 在 运行 时 通过 编程 方式 重 置 仿真 。 

2) 不 支持 在 运行 时 创建 新 的 实体 。 

3) SimJava 的 多 线程 机 制导 致 性 能 开销 与 系统 规模 呈正 比 ,线程 之 间 过 多 的 上 下 文 切 
换 导 致 性 能 严重 下 降 。 

4) 多 线程 使 系统 调试 变 得 更 加 复杂 。 

为 了 克服 这 些 限 制 并 满足 更 复杂 的 仿真 场景 ,墨尔本 大 学 的 研究 小 组 开发 了 一 个 全 新 
的 离散 事件 管理 框架 。 图 4-2(a) 为 相应 的 类 图 ,下 面 介绍 一 些 相 关 的 类 。 

(1) CloudSim 

这 是 主 类 ,负责 管理 事件 队列 和 控制 仿真 事件 的 顺序 执行 。 这 些 事件 按照 它们 的 时 间 
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CloudSimTags CloudInformationService | CloudInformationService Predicate 
到 


J PredicateAny 
N i 1 1 " n 

SimEvent —.[—————————e|  SimEntity PredicateFrom 
| [Eee Eg 

PredicateNotFrom| 
BEER FutureQueue N ©  CloudSim PredicateType 
(a) (b) 
图 4-2. CloudSim 核心 模拟 引擎 类 图 


参数 构成 有 序 队列 。 在 每 一 步调 度 的 仿真 事件 会 从 未 来 事件 队列 (Future Event Queue) 中 
被 删除 ,并 被 转移 到 延 时 事件 队列 (Deferred Event Queue) 中 。 之 后 ,每 个 实体 调用 事件 处 
理 方法 ,从 延 时 事件 队列 中 选择 事件 并 执行 相应 的 操作 。 这 样 灵活 的 管理 方式 ,具有 以 下 
优势 。 

。 支持 实体 失 活 操作 。 

。 支持 不 同 状态 实体 的 上 下 文 切换 ,暂停 或 继续 仿真 流程 。 

。 支 持 运 行 中 创建 新 实体 。 

。 支持 运行 中 终止 或 重启 仿真 流程 。 

(2) DeferredQueue 

实现 CloudSim 使 用 的 延 时 事件 队列 。 

(3) FutureQueue 

实现 CloudSim 使 用 的 未 来 事件 队列 。 

(4) CloudInformationService(CIS) 

CIS 提供 资源 注册 ,索引 和 发 现 能 力 的 实体 。CIS 支持 两 个 基本 操作 : publish O f Yr 
实体 使 用 CIS 进行 注册 ; search() 人 允许 类 似 于 CloudCoordinator 和 Broker 的 实体 发 现 其 他 
实体 的 状态 和 位 置 ,该 实体 也 会 在 仿真 结束 时 通知 其 他 实体 。 

(5) SimEntity 

该 类 代表 一 个 仿真 实体 ,该 实体 既 能 向 其 他 实体 发 送 消息 ,也 能 处 理 接收 到 的 消息 。 所 
有 的 实体 必须 扩展 该 类 并 重 写 其 中 的 三 个 核心 方法 : startEntity()、processEvent() 和 
shutdownEntity(), 它们 分 别 定 义 了 实体 初始 化 .事件 处 理 和 实体 销毁 的 行为 。 类 
SimEntity 提供 调度 新 事件 和 向 其 他 实体 发 送 消息 的 能 力 , 其 中 消息 传递 的 网 络 延 时 是 由 
BRITE 模型 计算 出 来 的 。 实 体 一 旦 建立 就 会 使 用 CIS 自动 注册 。 

(6) CloudSimTags 

该 类 包含 多 个 静态 的 时 间或 命令 标签 ,CloudSim 实体 在 接收 和 发 送 事件 时 使 用 这 些 标 
签 决 定 要 采取 的 操作 类 型 。 

(7) SimEvent 

该 实体 给 出 了 在 两 个 或 多 个 实体 间 传 递 仿真 事件 的 过 程 。SimEvent 存储 了 关于 事件 

的 信息 ,包括 事件 的 类 型 .初始 化 时 间 、 事 件 发 生 的 时 间 、 结 束 时 间 、 事 件 转发 到 目标 实体 的 
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时 间 、 资 源 标识 、 目 标 实体 、 事 件 标签 及 需要 传输 到 目标 实体 的 数据 。 

(8) CloudSimShutdown 

该 实体 用 于 结束 所 有 终端 用 户 和 代理 实体 ,然后 向 CIS 发 送 仿真 结束 信号 。 

(9) Predicate 

抽象 类 必须 被 扩展 ,用 于 从 延 时 队列 中 选择 事件 。 图 4-2(b) 给 出 了 一 些 标准 的 扩展 。 

(10) PredicateAny 

该 类 表示 匹配 延 时 队列 中 的 任何 一 个 事件 。 在 CloudSim 的 类 中 有 个 可 以 公开 访问 的 
实例 CloudSim. SIM_ANY ,因此 不 需要 为 该 类 创建 新 的 实例 。 

(11) PredicateFrom 

该 类 表示 选择 被 特定 实体 放弃 的 事件 。 

(12) PredicateNone 

表示 不 匹配 延 时 队列 中 的 任何 一 个 事件 。 在 CloudSim 的 类 中 有 个 可 以 公开 访问 的 静 
态 实 例 CloudSim. SIM_NONE, 因 此 用 户 不 需要 为 该 类 创建 任何 新 的 实例 。 

(13) PredicateNotFrom 


à x " 3 
选择 已 经 被 特定 对 象 发 送 的 事件 。 
PredicateFrom A predicate which selects events from specific entities. 
“Tere oLeimuiokon precem WI TO TO ST ava 2 
| PredicateNone A predicate which will not match any event on the deferred event queue 
PredicateNotFrom A predicate which selects events that have(not been sent\py specific entities. 
| PredicateNotType A nradiicaln tn select events that dont math Aner TAGS 


KF PredicateFrom 与 PredicateNotFrom ,编者 查看 了 CloudSim 中 的 docs 文档 说 明 ， 
如 上 图 ,个 人 感觉 与 现在 文中 的 解释 有 所 出 入 。 

(14) PredicateType 

根据 选择 特定 标签 选择 事件 。 

(15) PredicateNotType 

选择 不 满足 特定 标签 选择 事件 。 

2. CloudSim 层 

CloudSim 仿真 层 为 云 数据 中 心 环境 的 建 模 和 仿真 提供 支持 ,包括 虚拟 机 、 内 存 、 存 储 器 
和 带宽 的 专用 管理 接口 。 该 层 主要 负责 处 理 一 些 基 本 问题 ,如 主机 到 虚拟 机 的 调度 、 管 理应 
用 程序 的 执行 ,监控 动态 变化 的 系统 状态 。 对 于 想 对 不 同 虚拟 机 调度 (将 主机 分 配给 虚拟 
机 ) 策 略 的 有 效 性 进行 研究 的 云 提供 商 来 说 ,他 们 可 以 通过 这 一 层 来 实现 自己 的 策略 ,以 编 
程 的 方式 扩展 其 核心 的 虚拟 机 调度 功能 。 这 一 层 的 虚拟 机 调度 有 一 个 很 明显 的 区 别 , 即 一 
个 云端 主机 可 以 同时 分 配给 多 台 正 在 执行 应 用 的 虚拟 机 ,上 且 这 些 应 用 满足 SaaS 提供 商定 义 
的 服务 质量 等 级 。 这 一 层 也 为 云 应 用 开发 人 员 提 供 了 接口 ,只 需 扩 展 相 应 的 功能 ,就 可 以 实 
现 复杂 的 工作 负载 分 析 和 应 用 性 能 研究 。 

CloudSim 又 可 以 细 化 为 5 层 。 

(1) 网 络 层 

为 了 连接 仿真 的 云 计算 实体 (主机 、 存 储 器 \ 终 端 用 户 ) ,全面 的 网 络 拓扑 建 模 是 非常 重 
要 的 。 又 因为 消息 延 时 直接 影响 用 户 对 整个 服务 的 满意 度 ,决定 了 一 个 云 提 供 商 的 服务 质 
量 ,因此 云 系统 仿真 框架 提供 一 个 模拟 真实 网 络 拓扑 及 模型 的 工具 至 关 重 要 。CloudSim 中 
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云 实体 (数据 中 心 EHL, SaaS 提供 商 和 终端 用 户 ) 的 内 部 网 络 建立 在 网 络 抽象 概念 之 上 。 
在 这 个 模型 下 ,不 会 为 模拟 的 网 络 实体 提供 真实 可 用 的 组 件 ,如 路 由 器 和 交换 机 ,而 是 通过 
延 时 矩阵 中 存储 的 信息 来 模拟 一 个 消息 从 一 个 CloudSim 实体 (如 主机 ) 到 另 一 个 实体 (如 
云 代理 ) 过 程 中 产生 的 网 络 延 时 ,如 图 4-3 所 示 。 图 4-3 为 5 个 CloudSim 实体 的 延 时 矩阵 ， 
在 任意 时 刻 ,CloudSim 环境 为 所 有 (这 里 原本 有 个 空格 ) 的 当前 活动 实体 维护 m X n 和 矩阵 。 
和 矩阵 的 元 素 ej; 代表 一 条 消息 通过 网 络 从 实体 i 传输 到 实体 j 产生 的 延 时 。 


0 40 120 80 200 
40 0 60 100 100 
120 60 0 90 40 
80 100 90 0 70 
200 100 40 70 0 


4-3 HER 


CloudSim 是 基于 事件 的 仿真 ,不 同 的 系统 模型 .实体 通过 发 送 不 同事 件 的 消息 进行 通 
信 ,CloudSim 的 事件 管理 引擎 利用 实体 交互 的 网 络 延 时 信息 来 表示 消息 在 实体 间 发 送 的 延 
时 , 延 时 单位 依据 仿真 时 间 的 单位 ,如 ms。 

这 意味 着 当 仿真 时 间 达 到 Hd 时 ,事件 管理 引擎 就 会 将 事件 从 实体 i 转发 到 实体 j ,其 
中 上 表示 消息 最 初 被 发 送 时 的 仿真 时 间 ,d 表示 实体 i 到 j 的 网 络 延 时 。 图 4-4 给 出 了 这 种 
交互 的 消息 传递 图 。 用 这 种 模拟 网 络 延 时 的 方法 ,在 仿真 环境 中 为 实用 的 网 络 架构 建 模 , 提 
供 了 一 种 既 真 实 又 简单 的 方式 ,并 且 比 使 用 复杂 的 网 络 组 件 ( 如 路 由 器 和 交换 机 等 ) 建 模 更 
简单 更 清晰 。 


接收 消息 


接收 消息 


e do/ 发 送 消息 do/ 计 算 网 络 延 时 do/ 将 消息 放 入 队列 
消息 发 送 实体 网 络 拓扑 CloudSim 
图 4-4 交互 的 消息 传递 图 
(2) 云 资 源 层 


与 云 相关 的 核心 硬件 基础 设施 均 由 该 层 数 据 中 心 组 件 来 模拟 。 数 据 中 心 实体 由 一 系列 
主机 组 成 ,主机 负责 管理 虚拟 机 在 其 生命 周期 内 的 一 系列 操作 。 每 个 主机 都 代表 云 中 的 一 
个 物理 计算 节点 , 它 会 被 预先 配置 一 些 参数 ,如 处 理 器 能 力 ( 用 MIPS 表示 )、 内 存 、 存 储 器 及 
为 虚拟 机 分 配 处 理 核 的 策略 等 ,而 且 主 机 组 件 实现 的 接口 支持 单 核 和 多 核 节点 的 建 模 与 
仿真 。 

为 了 整合 多 采 云 ,需要 对 云 协调 器 (CloudCoordinator) 实 体 进 行 建 模 。 该 实体 不 仅 负 
责 和 其 他 数据 中 心 及 终端 用 户 的 通信 ,还 负责 监控 和 管理 数据 中 心 实体 的 内 部 状态 。 在 监 
控 过 程 中 收 到 的 信息 将 会 活跃 于 整个 仿真 过 程 中 ,并 被 作为 云 交 互 时 进行 调度 决策 的 依据 。 
注意 ,没有 一 个 云 提供 类 似 于 云 协调 器 的 功能 ,如 果 一 个 非 仿 真 云 系 统 的 开发 人 员 想 要 整合 
多 打 云 上 的 服务 ,必须 开发 一 个 自己 的 云 协 调 组 件 。 通 过 该 组 件 管理 和 整合 云 数 据 中 心 , 实 
现 与 外 部 实体 的 通信 ,协调 独立 于 数据 中 心 的 核心 对 象 。 
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在 模拟 一 次 云 整 合 时 ,有 两 个 基本 方面 需要 解决 : 通信 和 监控 。 通 信 由 数据 中 心 通过 
标准 的 基于 事件 的 消息 处 理 来 解决 ,数据 中 心 监控 则 由 云 协调 器 解决 。CloudSim 的 每 一 个 
数据 中 心 为 了 让 自己 成 为 联合 云 的 一 部 分 都 需要 实例 化 云 协调 器 , 云 协调 基于 数据 中 心 的 
状态 ,对 交互 云 的 负载 进行 调整 ,其 中 影响 调整 过 程 的 事件 集合 通过 传感器 (Sensor) 实 体 实 
现 。 为 了 启用 数据 中 心 主 机 的 在 线 监 控 , 会 将 跟踪 主机 状态 的 传感器 和 云 协调 器 关联 起 来 。 
在 监控 的 每 个 步骤, 云 协调 器 都 会 查询 传感器 。 如 果 云 协调 器 的 负载 达到 了 预先 配置 的 阅 
值 ,那么 它 就 会 和 联合 云 中 的 其 他 协调 器 通信 ,尝试 减轻 其 负载 。 

(3) 云 服 务 层 

虚拟 机 分 配 是 主机 创建 虚拟 机 实例 的 一 个 过 程 。 在 云 数据 中 心 , 将 特定 应 用 的 虚拟 机 
分 配 控制 器 (VmAllocationPolicy) 完 成 的 。 该 组 件 为 研究 和 开发 人 员 提 供 了 一 些 自 定义 方 
法 ,帮助 他 们 实现 基于 优化 目标 的 策略 。 默 认 情 况 下 ,VmAllocationPolicy 实现 了 一 个 相对 
直接 的 策略 即 按照 先 来 先 服 务 的 策略 将 虚拟 机 分 配给 主机 ,这 种 调度 的 基本 依据 是 硬件 需 
求 ,如 处 理 核 的 数量 .内 存 和 存储 器 等 。 在 CloudSim 中 ,要 模拟 和 建 模 其 他 的 调度 是 非常 
容易 的 。 

给 虚拟 机 分 配 处 理 内 核 的 过 程 则 是 由 主机 完成 的 ,需要 考虑 给 每 个 虚拟 机 分 配 多 少 处 
理 核 及 给 定 它 的 虚拟 机 对 于 处 理 核 的 利用 率 有 多 高 。 可 能 采用 的 分 配 策略 有 : 给 特定 的 虚 
拟 机 分 配 特定 的 CPU 内 核 ( 空 间 共 享 策略 )\ 在 虚拟 机 之 间 动 态 分 配 内 核 ( 时 间 共 享 策略 
以 及 给 虚拟 机 按 需 分 配 内 核 等 。 

考虑 下 面 这 种 情况 ,一 个 云 主 机 只 有 一 个 处 理 核 ,而 在 这 个 主机 上 同时 产生 了 两 个 实例 
化 虚拟 机 的 需求 。 尽 管 虚拟 机 上 下 文 (通常 指 主 存 和 辅 存 空 间 ) 实 际 上 是 相互 隔离 的 ,但 是 
它们 仍然 会 共享 处 理 器 核 和 系统 总 线 。 因 此 ,每 个 虚拟 机 的 可 能 硬件 资源 被 主机 的 最 大 处 
理 能 力 及 可 能 系统 带宽 限制 。 在 虚拟 机 的 调度 过 程 中 ,要 防止 已 创建 的 虚拟 机 对 处 理 能 力 
的 需求 超过 主机 的 能 力 。 为 了 在 不 同 环境 下 模拟 不 同 的 调度 策略 ,CloudSim 支持 两 种 层次 
的 虚拟 机 调度 : 主机 层 和 虚拟 机 层 。 在 主机 层 指 定 每 个 处 理 核 可 以 分 配给 虚拟 机 的 处 理 能 
力 ; 在 虚拟 机 层 , 虚 拟 机 为 在 其 内 运行 的 单个 应 用 服务 (任务 单元 ) 分 配 一 个 固定 的 可 用 处 
理 器 能 力 。 

在 上 述 的 每 一 层 ,CloudSim 都 实现 了 基于 时 间 共 享 和 空间 共享 的 调度 策略 。 为 了 清楚 
地 解释 这 些 策略 之 间 的 区 别 及 它们 对 应 用 服务 性 能 的 影响 ,可 参见 如 图 4-5 所 示 的 一 个 简 
单 的 虚拟 机 调度 场景 。 

图 4-5 中 ,一 台 拥 有 两 个 CPU 内 核 的 主机 将 要 运行 两 个 虚拟 机 ,每 个 虚拟 机 需要 两 个 
内 核 并 要 运行 4 个 任务 单元 。 更 具体 来 说 ,VM1 上 将 运行 任务 tl、t2、t3、t4, 而 VM2 将 运 
行 任务 任务 t5、t6、t7、t8。 

图 4-5(a) 中 虚拟 机 和 任务 单元 均 采 用 空间 共享 策略 。 由 于 采用 空间 共享 模式 , 且 虚 拟 
机 需要 两 个 内 核 ,所 以 在 特定 时 间 段 内 只 能 运行 一 个 虚拟 机 。 因 此 ,VM2 只 能 在 VM1 执 
行 完 任务 单元 才 会 被 分 配 内 核 。VMI1 中 的 任务 调度 也 是 一 样 的 ,由 于 每 个 任务 单元 只 需要 
一 个 内 核 , 所 以 tl 和 t2 可 以 同时 执行 ,t3、t4 则 在 执行 队列 中 等 待 tl\t2 完成 后 再 执行 。 

图 4-5(b) 虚 拟 机 采用 空间 共享 策略 ,任务 单元 采用 时 间 共 享 策略 。 因 此 ,在 虚拟 机 的 
生命 周期 内 ,所 有 分 配给 虚拟 机 的 任务 单元 在 其 生命 周期 内 动态 地 切换 上 下 文 环境 。 

图 4-5(c) 虚 拟 机 采用 时 间 共 享 策略 ,任务 单元 采用 空间 共享 策略 。 这 种 情况 下 ,每 个 虚 
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(c) (d) 
图 4-5 任务 单元 采用 不 同 任务 调度 策略 的 影响 


拟 机 都 会 收 到 内 核 分 配 的 时 间 片 ,然后 这 些 时 间 片 以 空间 共享 的 方式 分 配给 任务 单元 。 由 
于 任务 单元 基于 空间 共享 策略 这 就 意味 着 对 于 一 台 虚 拟 机 ,在 任何 一 个 时 间 段 内 ,内 核 只 会 
执行 一 个 任务 。 

图 4-5(d) 虚 拟 机 和 任务 单元 采用 时 间 共 享 策略 。 所 有 虚拟 机 共享 处 理 器 能 力 , 且 每 个 
虚拟 机 同时 将 共享 的 能 力 分 给 其 任务 单元 。 这 种 情况 下 ,任务 单元 不 存在 排队 延 时 。 

(4) 虚拟 机 服务 层 

在 这 一 层 提 供 了 对 虚拟 机 生命 周期 的 管理 ,如 将 主机 分 配给 虚拟 机 (前 文 说 的 是 “虚拟 
机 分 配给 主机 ”) .虚拟 机 创建 .虚拟 机 销毁 以 及 虚拟 机 和 迁移 等 ,以 及 对 任务 单元 的 操作 。 

(5) 用 户 接口 结构 层 

该 层 提供 了 任务 单元 和 虚拟 机 实体 的 创建 接口 。 

3. 用 户 代 码 层 

CloudSim 的 最 高 层 是 用 户 代码 层 , 该 层 提供 了 一 些 基本 的 实体 ,如 主机 (机 器 的 数量 、 
特征 等 ) .应 用 (任务 数 和 需求 ) .虚拟 机 ,还 有 用 户 数量 和 应 用 类 型 ,以 及 代理 调度 策略 等 。 
通过 扩展 这 一 层 提供 的 基本 实体 , 云 应 用 开发 人 员 能 够 进行 以 下 活动 。 

CD 生成 工作 负载 分 配 请 求 和 应 用 配置 请 求 。 

(2) 模拟 云 可 用 性 场景 ,并 基于 自 定义 的 配置 进行 稳健 性 测试 。 

CD 为 云 及 联合 云 实现 自 定义 的 应 用 调度 技术 。 


4.1.2 CloudSim 3.0 API 介绍 


CloudSim 3. 0 的 API 如 图 4-6 所 示 , CloudSim API 的 详细 信息 可 以 访问 http:// 
www. cloudbus. org/cloudsim/doc/api/index. html 获取 。 

CloudSim 云 模拟 器 的 类 设计 图 如 图 4-7 所 示 ,本 节 详 细 介绍 CloudSim 的 基础 类 ,这 些 
类 都 是 构建 模拟 器 的 基础 。 

主要 类 的 功能 描述 如 下 。 

1) BwProvisioner 


这 个 抽象 类 用 于 模拟 虚拟 机 的 带宽 分 配 策略 。 云 系统 开发 和 研究 人 员 可 以 通过 扩展 这 个 
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cloudsim 3.0 API 


Packages 
Package Description 


org.cloudbus.cloudsim 
org.cloudbus.cloudsim.core 
org.cloudbus.cloudsim.core.predicates. 
org.cloudbus.cloudsim.distributions. 
org.cloudbus.cloudsim.lists 
org.cloudbus.cloudsim.network 
org.cloudbus.cloudsim.network.datacenter 
org.cloudbus.cloudsim.power 
org.cloudbus.cloudsim.power.lists. 
org.cloudbus.cloudsim.power.models 
org.cloudbus.cloudsim.provisioners 
org.cloudbus.cloudsim.util 


图 4-6 CloudSim 3.0 API 


VMProvisioner 1 Datacenter Ll DatacenterCharateristics 
A 
Datacenter Tags 
SimpleVMProvisioner 
N fy; S| | WE | ss 1 
VirtualMachine| VMCharateristics 一 一 | VMScheduler 
1 
RWProvisioner Host 1 1 MemoryProvisioner 人 
^ [SpaceSharedVMScheduler TimeShared VMScheduler 
SimpleBwProvisioner | VMMAllocationPolicy| |SimpleMemoryProvisioner Cloudlet 
^ VirtualMachineList 
[ SANStorage 
[TimeSpaceShared V MScheduler| TimeShared VMScheduler SpaccShared V MScheduler DatacenterBroker 


图 4-7 CloudSim 云 模拟 器 的 类 设计 图 


类 反映 其 应 用 的 需求 的 变化 ,实现 自己 的 策略 (基于 优先 级 或 服务 质量 )。BwProvisionerSimple 
允许 虚拟 机 保留 尽 可 能 多 的 带宽 ,并 受 主机 总 可 用 带宽 的 限制 。 

2) CloudCoordinator 

这 个 抽象 类 整合 了 云 数据 中 心 ,负责 周期 性 地 监控 数据 中 心 资源 的 内 部 状态 和 执行 动 
态 负 载 均 衡 的 决策 。 这 个 组 件 的 具体 实现 包括 专门 的 传感器 和 负载 均衡 过 程 中 需要 遵循 的 
策略 。updateDatacenter() 方 法 通过 查询 传感器 实现 监控 数据 中 心 资源 。SetDatacenter() 
抽象 方法 实现 了 服务 /资源 的 发 现 机 制 , 这 个 方法 可 以 被 扩展 实现 自 定义 的 协议 及 发 现 机 制 
(多 播 、 广 播 和 点 对 点 )。 此 外 ,还 能 扩展 该 组 件 模 拟 如 Amazon EC2 Load-Balancer 的 云 服 
务 。 若 要 在 多 个 云 环 境 下 部 署 应 用 服务 的 开发 人 员 ,可 以 扩展 这 个 类 实现 自己 的 云 间 调度 
策略 。 

3) Cloudlet 

这 个 类 模拟 了 云 应 用 服务 (如 内 容 分 发 .社区 网 络 和 业务 工作 流 等 )。 每 一 个 应 用 服务 
都 会 拥有 一 个 预 分 配 的 指令 长 度 和 其 生命 周期 内 所 需 的 数据 传输 开销 。 通 过 扩展 该 类 ,能 
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够 为 应 用 服务 的 其 他 度量 标准 (如 性 能 、 组 成 元 素 ) 提 供 建 模 ,如 面向 数据 库 应 用 的 事务 
处 理 。 

4) CloudletScheduler 

扩展 实现 了 多 种 策略 ,用 于 决定 虚拟 机 内 的 应 用 服务 如 何 共享 处 理 器 能 力 。 支 持 两 种 调 
度 策 略 : 空间 共享 (CloudletSchedulerSpaceShared) 和 时 间 共 享 (CloudletSchedulerTimeShared) 
策略 。 

5) Datacenter 

该 类 模拟 了 云 提供 商 提供 的 核心 基础 设施 级 服务 (硬件 )。 它 封装 了 一 系列 的 主机 , 且 
这 些 主机 都 支持 同 构 和 异 构 的 资源 (内 存 、 内 核 、 容 量 和 存储 ) 配 置 。 此 外 ,每 个 数据 中 心 组 
件 都 会 实例 化 一 个 通用 的 应 用 调度 组 件 , 该 组 件 实 现 了 一 系列 的 策略 用 来 为 主机 和 虚拟 机 
分 配 带宽 、 内 存 和 存储 设备 。 

6) DatacenterBroker 

该 类 模拟 了 一 个 代理 ,负责 根据 服务 质量 需求 协调 SaaS 提供 商 和 云 提供 商 。 该 代理 代 
K SaaS 提供 商 , 它 通 过 查询 云 信息 服务 (CIS) 找 到 合适 的 云 服 务 提供 者 ,并 根据 服务 质量 
的 需求 在 线 协 商 资源 和 服务 的 分 配 策略 。 研 究 人 员 和 系统 开发 人 员 如 果 要 评估 和 测试 自 定 
义 的 代理 策略 就 必须 扩展 这 个 类 。 代 理 和 云 协调 器 的 区 别 是 ,前 者 针对 顾客 , 即 代理 所 做 的 
决策 是 为 了 增加 用 户 相 关 的 性 能 度量 标准 : 而 后 者 针对 数据 中 心 , 即 协调 器 试图 最 大 化 数 
据 中 心 的 整体 性 能 ,而 不 考虑 特定 用 户 的 需求 。 

Datacenter,CIS(Cloud Information Service) fll DatacenterBroker 之 间 信 息 交 互 的 过 程 
如 图 4-8 所 示 。 在 仿真 初期 ,每 个 数据 中 心 实体 都 会 通过 CIS 进行 注册 , 当 用 户 请 求 到 达 
时 ,CIS 就 会 根据 用 户 的 应 用 请 求 , 从 列表 中 选择 合适 的 云 服务 提供 商 。 图 中 对 交互 的 描述 
依赖 于 实际 的 情况 ,比如 从 DatacenterBroker 到 Datacenter 的 消息 可 能 只 是 对 下 一 个 执行 
动作 的 一 次 确认 。 


Datacenter CIS 注 册 DatacenterBroker | 
1 T H 
1 1 1 
1 注册 

查询 
可 用 数据 中 心 
m" 获取 特征 
L || | eumemp 
= | 任务 调度 
| 任务 守成 | 
Le 销毁 虚拟 机 


4-8 CloudSim 仿真 数据 流 


7) DatacenterCharacteristics 

该 类 包含 了 数据 中 心 资源 的 配置 信息 。 

8) Host 

该 类 模拟 了 如 计算 机 、 存 储 服务 器 等 物理 资源 。 它 封装 了 一 些 重要 信息 ,如 内 存 、 存 储 
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器 的 容量 .处 理 器 内 核 列 表 及 类 型 (多 核 机 器 ) 虚拟 机 之 间 共 享 处 理 能 力 的 分 配 策略 为 虚 
拟 机 分 配 内 存 和 带宽 和 策略 等 。 

9) NetworkTopology 

该 类 包含 模拟 网 络 行为 ( 延 时 ) 的 信息 。 它 里 面 保存 了 网 络 拓扑 信息 ,该 信息 由 BRITE 
拓扑 生成 器 生成 。 

10) RamProvisioner 

这 个 抽象 类 代表 为 虚拟 机 分 配 主 存 的 策略 。 只 有 当 RamProvisioner 组 件 证 实 主机 有 
足够 的 空闲 主 存 , 虚 拟 机 在 其 上 的 执行 和 部 署 操 作 才 是 可 行 的 。RamProvisionerSimple 对 
虚拟 机 请 求 的 主 存 大 小 不 强加 任何 限制 ,但 如 果 请 求 超过 了 可 用 的 主 存 容量 ,该 请 求 就 直接 
被 拒绝 。 

11) SanStorage 

该 类 模拟 了 云 数据 中 心 的 存储 区 域 网 ,主要 用 于 存储 大 量 数据 ,类 似 于 Amazon. S3、 
Azure Blob Storage 等 。SanStorage 实现 了 一 个 简单 的 接口 ,该 接口 能 够 用 来 模拟 存储 和 
获取 任意 量 的 数据 ,但 同时 受 限 于 网 络 带宽 的 可 用 性 。 在 任务 单元 执行 过 程 中 访问 SAN 
中 的 文件 会 增加 额外 的 延 时 ,因为 数据 文件 在 数据 中 心 内 部 网 络 传输 时 会 发 生 延 时 。 

12) Sensor 

该 接口 的 实现 必须 通过 实例 化 一 个 能 够 被 云 协调 器 使 用 的 传感器 组 件 , 用 于 监控 特定 
的 性 能 参数 (能 量 消 耗 .资源 利 用 )。 该 接口 定义 了 如 下 方法 : 

CD 为 性 能 参数 设置 最 小 值 和 最 大 值 。 

(2) 周期 性 地 更 新 测量 值 。 

该 类 能 够 用 于 模拟 由 主流 云 提供 商 提 供 的 真实 服务 ,如 Amazon CloudWatch 和 
Microsoft Azure FabricController 等 。 一 个 数据 中 心 可 以 实例 化 一 个 或 多 个 传感器 ,每 一 
个 传感器 负责 监控 数据 中 心 的 一 个 特定 性 能 参数 。 

13) Vm 

该 类 模拟 了 由 主机 组 件 托管 和 管理 的 虚拟 机 。 每 个 虚拟 机 组 件 都 能 够 访问 存 有 虚拟 机 
相关 属性 的 组 件 , 这 些 属性 包括 可 访问 的 内 存 、 处 理 器 、 存 储 容量 和 扩展 自 抽象 组 件 
CloudletScheduler 的 虚拟 机 内 部 调度 策略 。 

14) VmAllocationPolicy 

该 抽象 类 代表 虚拟 机 监控 器 使 用 的 调度 策略 ,该 策略 用 于 将 虚拟 机 分 配给 主机 。 该 类 
的 主要 功能 是 在 数据 中 心 选择 一 个 满足 条 件 ( 内 存 、 存 储 容量 和 可 用 性 ) 的 可 用 主机 ,提供 给 
需要 部 署 的 虚拟 机 。 

15) VmScheduler 

该 抽象 类 由 一 个 主机 组 件 实现 .模拟 为 虚拟 机 分 配 处 理 核 所 用 的 策略 (空间 共享 和 时 间 
共享 )。 该 类 的 方法 能 很 容易 重 写 , 以 此 来 调整 特定 的 处 理 器 共享 策略 。 


4.2 CloudSim 环境 搭建 和 使 用 方法 


CloudSim 提供 基于 数据 中 心 的 虚拟 机 技术 、 虚 拟 化 云 的 建 模 和 仿真 功能 ,支持 云 计算 
的 资源 管理 和 调度 模拟 。 
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4.2.1 环境 配置 


D JDK 安装 和 配置 

http://www. oracle. com/technetwork/java/javase/downloads/index. html F 4% JDK 
最 新 版 本 并 安装 ,CloudSim 需要 运行 在 jdk1.6 以 上 版 本 。 以 jdk 1.7.0_11 为 例 ,默认 的 安 
装 目录 为 C:\Program Files\Java\jdk 1.7.0_11。 设 置 环境 变量 : 新 建 系统 变量 JAVA_ 
HOME, 变 量 值 设 为 JDK 安装 目录 , 即 C:\Program Files\Java\jdk1. 6. 0_24; 在 Path 中 加 
Ath YIAVA_HOME% \bin; 在 ClassPath "JA Wi £8 6 ]JAVA. HOME A \lib\ dt. jars 
26] AV A, HOME A MibNtools. jar. 

2) fif He CloudSim 

从 http://www. cloudbus. org/cloudsim/ F 2X CloudSim, 本 书 以 CloudSim 3. 0. 0 为 
例 。 将 其 解压 到 磁盘 ,例如 C: \cloudsim-3. 0. 0. 


4.2.2 运行 样 例 程序 


1. 样 例 描述 

C:\cloudsim-3. 0. 0\examples 目录 下 提供 了 一 些 CloudSim 样 例 程序 ,包括 8 个 基础 样 
例 程序 和 多 个 网 络 仿真 和 能 耗 仿真 例子 。 基 础 样 例 模拟 的 环境 如 下 : 

(D CloudSimExamplel. java: 创建 一 个 一 台 主 机 ,一 个 任务 的 数据 中 心 。 

(2) CloudSimExample2. java: 创建 一 个 一 台 主 机 、 两 个 任务 的 数据 中 心 。 两 个 任务 具 
有 一 样 的 处 理 能 力 和 执行 时 间 。 

(3) CloudSimExample3. java: 创建 一 个 两 台 主 机 、 两 个 任务 的 数据 中 心 。 两 个 任务 对 
处 理 能 力 的 需求 不 同 ,同时 根据 申请 虚拟 机 的 性 能 不 同 ,所 需 执行 时 间 也 不 相同 。 

(4) CloudSimExample4. java: 创建 两 个 数据 中 心 , 每 个 数据 中 心 一 台 主 机 ,并 在 其 上 
运行 两 个 云 任务 。 

(5) CloudSimExample5. java: 创建 两 个 数据 中 心 , 每 个 数据 中 心 一 台 主 机 ,并 在 其 上 
运行 两 个 用 户 的 云 任务 。 

(6) CloudSimExample6. java: 创建 可 扩展 的 仿真 环境 。 

(7) CloudSimExample7. java: 演示 如 何 停止 仿真 。 

(8) CloudSimExample8, java; 演示 如 何在 运行 时 添加 实体 。 

网 络 仿真 例子 通过 读 取 文件 构建 网 络 拓扑 ,网 络 拓扑 包括 节点 距离 , 边 时 延 等 信息 。 

能 耗 仿真 通过 读 取 负载 文件 中 的 CPU 利用 率 数据 作为 云 任 务 的 利用 率 , 实 现 云 任务 
负载 的 动态 变化 。 例 子 通过 动态 迁移 负载 过 高 的 主机 中 的 虚拟 机 到 负载 低 的 主机 ,实现 了 
负载 动态 适应 的 算法 ,并 且 应 用 能 耗 一 CPU 利用 率 模型 计算 数据 中 心 的 能 耗 。 

2. 运行 步骤 

需要 安装 Windows 2000/XP/Vista 操作 系统 环境 、JDK 及 Eclipse 集成 开发 环境 。 
Java 版 本 要 达到 1. 6 或 更 高 ,CloudSim 和 旧版 本 的 Java 不 兼容 ,如 果 安 装 非 Sun 公司 的 
Java 版 本 ,比如 gcj 或 J++ ,也 可 能 不 兼容 。Eclipse 集成 开发 环境 的 版 本 要 和 JDK 相 匹 配 。 
本 书 使 用 jdk 1.7.0_11 和 Eclipse 4.2.1。 
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为 了 方便 查看 和 修改 代码 ,通常 选择 在 Eclipse 中 执行 ,整个 操作 步骤 如 下 。 
CD 首先 启动 Eclipse 主 程序 ,在 Eclipse 主 界面 上 选择 File>New 一 Java Project 命令 ， 
(如 图 4-9 所 示 ) ,新 建 一 个 工程 。 


@ 
Open File... E$ Android Application Project 
Qose Crew TÊ Project... 
Qosean CirleShittsW ge, 
Save Cates, G cass 
H, Save As.. G intertace 


图 4-9 新 建 Java Project 


(2) 填写 Java 工程 的 名 称 , 取 消 选择 复 选 模 框 “Use default location”, 浏 览 CloudSim 
源 代码 所 在 的 目录 ,并 选 定 该 目录 ,如 图 4-10 所 示 。 


Create a Java Project 
Create a Java project in the workspace or in an external location. 


Project name: | CloudSimExampie. 


D Use default location 
Location: [Edoudsim3.0 F browses d 
RE 
‘© Use an execution environmentJRE: Java5E1.6 
O Use a project specific JRE: Jre7 $ 
O Use default JRE (currently Jre7] Configure RE. 
— Project layout 
O Use project folder as root for sources and class files 
© Create separate folders for sources and class files Configure default. 
- Working sets 
C Add project to working sets 
Select... 
(D) hewizard will automatically configure the JRE and the project layout based on the 
existing source. 
® [ «me | net> Enin |{ cance 


图 4-10 选择 CloudSim 目录 


(3) 单 击 Next 按钮 ,显示 Java 工程 的 配置 界面 ,该 界面 的 选项 卡 包括 源 代码 、 工 程 和 
库 等 信息 ,如 图 4-11 所 示 。 

(4) 单 击 Finish 按钮 完成 创建 Java 工程 的 工作 。 

(5) 创建 后 ,会 发 现 项 目 有 错误 ,需要 添加 单 击 项 目 名 ,右键 选择 Build Path 一 Add 
External Archives 命令 ,弹出 选择 文件 的 对 话 框 , 选 择 flanagan. jar, 注 意 flanagan. jar 也 需 
要 对 应 版 本 , 太 新 太 旧 的 版 本 都 不 能 ,如 图 4-12 所 示 。 
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Java Settings 
Define the Java build settings. 


(B Source G Projects EÀ libraries "^; Order and Export 
ew & e le @ 
ME Cloudsimésampie | "n 
5-89 eamples 
E- sources 
$+ docs 
FB an 
HA buit xmi 
LB aangenght 
examples.txt. 
Eli aie rerasanan 
HB wensebt 了 
> Details 
‘69 Create new source folder: use this if you want to add a new source folder to your ma 
project. 


Fe Link additional source: ope Re Roe Pre obi Mthe He eR tt hoa 
be used as additional source fol 


Add project 'CloudSimExample to build path: Add the project to the build path if 
the project is the root of packages and source files. Entries on the build path are 

visible to the compiler and used for building, u 
C Allow output folders for source folders. 


Default output folder: 
Cloudsimexample/bin Browse... 


@ Cm | wee | 后 | cn 


图 4-11 配置 界面 

I8 Package Explorer 22 B3 $770 BD wanutijava X 

7-32) doudsim3.03 E 116 * (param data tht 
Td » i * (return the ma 
| eam bod 118 ¥ 

| TB soun olto 119^ public static doub 
| | Pole open in New window 120 double mad = 0 
| *7HB 0 Open Ype Hierarchy F4 121 if (data length > 
i E » ? Showin Alte Shift+ W > B122 double mediz 
i Ed 123 double[] devi: 

*-Hi o Ñ Copy [i 124 for (int i= 

| Ew d or (int i = 
ER F1 © BÀ Copy Qualified Name 125 deviationSu 
i Hr ? s Paste Ctrl+V. 128 j 

i o 

| | 3. X bee Delete 127 mad = Statim 
| | S-E a à Removettom Contat GQrzAit+shiteDown p22 M 

i H x i di link Source... 

| La nee Alte Shifte S » 69 New Source Folder... 

i Refactor Alte Shift T » 

| PARES G Use as Source Folder 

| ~ docs psy Import... 

| x Mad rå Export... ‘Bi Add Libraries... 

| EI chan d? Refresh FS 


Š Configure Build Path... 
B eam cose Project - 


4-12 添加 外 部 flanagan. jar 包 


(6) 添加 后 ,等 编译 完毕 ,项目 将 没有 错误 ,可 以 选择 org. cloudbus. cloudsim. examples 
下 的 例子 运行 .这 里 运行 CloudSimExamplel ,如 图 4-13 所 示 。 
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TB doudsim3.0 
T- examples 
| T-HB org.doudbus.doudsim.examples 
广 - 国 CloudSimExamplet.java 
5- 国 CloudSimExample2 java. 
六 - 国 CloudSimExample3 java 
PF- CloudsimExamples.java 
六 - 国 CloudSimExamples java 
六 - 国 CloudSimExamples java 
六 - 国 CloudSimExample7.java 
Fr- 国 CloudSimExamples.java. 
P-E org.cloudbus.cloudsim.examples.network 
| -E org.cloudbus.cloudsim.examples.network.datacenter 
| P-E org.cloudbus.cloudsim.examples.power 
P-E org.cloudbus.cloudsim.examples.power.planetlab 
P-E org.cloudbus.cloudsim.examples.power.random 


图 4-13 选择 例子 运行 
程序 的 运行 结果 如 图 4-14 所 示 。 


BD togcat sib Servers EJ console 1: 

«terminated» CloudSimExamplel (1) Java Application] E:\Program Files\Java\jre7\bin\javaw.exe (2015-2-13 F4 03:10:46) 
Starting CloudSimExample1 

Initialising 

Starting CloudSim version 3.0 

Datacenter_0 is starting. 

Broker is starting. 

Entities started 

0.0: Broker. Cloud Resource List received with 1 resource(s) 
0.0: Broker. Trying to Create VM #0 in Datacenter 0 

0.1: Broker: VM #0 has been created in Datacenter #2, Host #0 
0.1: Broker: Sending cloudlet 0 to VM #0 

400.1; Broker: Cloudlet 0 received 

400.1: Broker: All Cloudlets executed. Finishing 

400.1: Broker. Destroying VM #0 

Broker is shutting down. 

Simulation: No more future events 

CloudinformationService: Notify all CloudSim entities for shutting down. 
Datacenter 0 is shutting down. 

Broker is shutting down. 

Simulation completed. 

Simulation completed. 


E -- OUTPUT = == 

CloudletID STATUS DatacenterID VMID Time StartTime Finish Time 
0 SUCCESS 2 0 400 0.1 400.1 

mret Datacenter. Datacenter 0***** 

User id Debt 

3 35.6 


A 


CloudSimExample1 tinished! 


图 4-14 CloudSimExamplel 运行 结果 


4.3 CloudSim 扩展 编程 


CloudSim 是 开源 的 ,可 以 运行 在 Windows 和 Linux 操作 系统 上 ,为 用 户 提供 了 一 系列 
可 扩展 的 实体 和 方法 ,通过 扩展 这 些 接 口 实 现 用 户 自己 的 调度 或 分 配 策略 ,进行 相关 的 性 能 
测试 。 下 面 将 通过 一 个 简单 的 示例 演示 如 何 扩 展 CloudSim, 由 于 篇 幅 限 制 ,本 书 仅 以 任务 
调度 策略 为 例 。 源 代码 可 在 http://bbs. chinacloud. cn 的 教材 板块 下 载 。 
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4.3.1 调度 策略 的 扩展 


CloudSim 提供 了 很 好 的 云 计 算 调度 算法 仿真 平台 ,用 户 可 以 根据 自身 的 要 求 调用 适当 
的 API。 如 DatacenterBroker 类 中 提供 的 方法 bindCloudletToVM (int cloudletId, int 
vmId) ,实现 将 一 个 任务 单元 绑 定 到 指定 的 虚拟 机 上 和 运行 。 除 此 之 外 ,用 户 还 可 以 对 该 类 进 
行 扩展 ,实现 自 定义 调度 策略 ,完成 对 调度 算法 的 模拟 ,以 及 相关 测试 和 实验 。 

1. 顺序 分 配 策略 

作为 一 个 简单 的 示例 ,这 里 新 写 一 个 方法 bindCloudletsToVmsSimple O ,用 于 把 一 组 
任务 顺序 分 配给 一 组 虚拟 机 , 当 所 有 的 虚拟 机 都 运行 任务 后 ,再 从 第 一 个 虚拟 机 开始 重头 分 
配 任务 ,该 方法 尽量 保证 每 个 虚拟 机 运行 相同 数量 的 任务 以 平 摊 负 载 ,而 不 考虑 任务 的 需求 
及 虚拟 机 之 间 的 差别 。 


public void bindCloudletsToVmsSimple() 
{ 
int vmNum = vnList.size(); 
int cloudletNum = cloudletList.size(); 
int idx= 0; 
for(int i=0;i<cloudletNum; i++) 
{  // 将 任务 绑 定 到 指定 id 的 虚拟 机 
cloudletList.get(i).setVmId(vmList.get(idx).getId()); 
idx = (idx + 1) % vmNum; // 循 环 遍历 虚拟 机 


2. 贪心 策略 

实际 上 ,任务 之 间 和 虚拟 机 之 间 的 配置 (参数 ) 都 不 可 能 完全 一 样 。 顺 序 分 配 策略 实现 简 
单 ,但 是 忽略 了 它们 之 间 的 差异 因素 ,如 任务 的 指令 长 度 (MD 和 虚拟 机 的 执行 速度 (MIPS) 等 。 
这 里 为 DatacenterBroker 类 再 写 一 个 新 方法 bindCloudletsToVmsTimeAwared O ,该 方法 采用 
贪心 策略 ,希望 让 所 有 任务 的 完成 时 间接 近 最 短 , 并 只 考虑 MI 和 MIPS 两 个 参数 的 区 别 。 

通过 分 析 CloudSim 自 带 的 样 例 程序 ,一 个 任务 所 需 的 执行 时 间 等 于 任务 的 指令 长 度 
除 以 运行 该 任务 的 虚拟 机 的 执行 速度 。 读 者 也 可 以 扩展 相应 的 类 ,实现 带宽 ,数据 传输 等 对 
任务 执行 时 间 的 影响 。 为 了 便于 理解 ,不 改变 CloudSim 当前 的 计算 方式 , 即 任 务 的 执行 时 
间 只 与 MI 和 MIPS 有 关 , 在 这 个 前 提 下 ,可 以 得 出 以 下 结论 。 

(1) 如 果 一 个 虚拟 机 上 同时 运行 多 个 任务 ,不 论 使 用 空间 共享 还 是 时 间 共 享 ,这 些 任务 
的 总 完成 时 间 是 一 定 的 ,因为 任务 的 总 指令 长 度 和 虚拟 机 的 执行 速度 是 一 定 的 。 

(2) 如 果 一 个 任务 在 某 个 虚拟 机 上 的 执行 时 间 最 短 ,那么 它 在 其 他 虚拟 机 上 的 执行 时 
间 也 是 最 短 的 。 

(3) 如 果 一 个 虚拟 机 的 执行 速度 最 快 ,那么 它 不 论 执 行 哪个 任务 都 比 其 他 虚拟 机 快 。 

定义 一 个 矩阵 time[ij[j] ,表示 任务 i 在 虚拟 机 j 所 需 的 执行 时 间 , 显 然 time Li J [j= 
MI[i]/MIPS[j]。 在 初始 化 矩阵 time 前 ,首先 将 任务 按 MI 的 大 小 降序 排序 ,将 虚拟 机 按 
MIPS 的 大 小 升序 排列 ,注意 重新 排序 后 矩阵 time 的 行 号 和 任务 id 不 再 一 一 对 应 , 列 号 和 
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虚拟 机 id 的 对 应 关系 ,也 相应 改变 。 初 始 化 后 ,矩阵 time 的 每 一 行 、 每 一 列 的 元 素 值 都 是 
降序 排列 的 ,然后 再 对 time 做 贪心 。 选 用 的 贪心 策略 是 : 从 矩阵 中 行 号 为 0 的 任务 开始 ， 
每 次 都 尝试 分 配给 最 后 一 列 对 应 的 虚拟 机 ,如 果 该 选择 相对 于 其 他 选择 是 最 优 的 ,就 完成 分 
配 ,否则 将 任务 分 配给 运行 任务 最 少 的 虚拟 机 ,实现 一 种 简单 的 负载 均衡 。 这 种 方式 反映 了 
越 复杂 的 任务 需要 越 快 的 虚拟 机 处 理 , 以 解决 复杂 任务 造成 的 瓶颈 ,降低 所 有 任务 的 总 执行 
时 间 。 实 现代 码 如 下 。 


public void bindCloudletsToVmsTimeAwared() 
{ 
int cloudletNum = cloudletList. size() ; 
int vmNum = vmList. size(); 
double[][] time = new double[cloudletNum] [ vmNum] ; 
// 重 新 排列 任务 和 虚拟 机 ,需要 导入 包 java. util. Collections 
Collections.sort(cloudletList, new CloudletComparator()); 
Collections.sort(vmList, new VmComparator()); 
// 初 始 化 矩阵 tine 
for(int i=0;i<cloudletNum; i++){ 
for(int j = 0;j< vmNum; j++) { 
time[i][j] = 
(double) cloudletList. get(i).getCloudletLength( )/vmList. get(j).getMips(); 
} 
) 
double[] vmLoad = new double[ vmNum] ; // 某 个 虚拟 机 上 任务 的 总 执行 时 间 
int[] vmTasks = new int[vmNum]; // 某 个 虚拟 机 上 运行 的 任务 数 
double minLoad = 0; // 记 录 当 前 任务 分 配方 式 的 最 优 值 
int idx= 0; // 记 录 当 前 任务 最 优 分 配方 式 对 应 的 虚拟 机 列 号 


// 将 行 号 为 0 的 任务 直接 分 配给 列 号 最 大 的 虚拟 机 
vnLoad[ vmNum - 1] = time[0][vmNum - 1]; 
vnTasks[ vmNum - 1] = 1; 
cloudletList.get(0).setVmId(vmList.get(vmNum - 1).getId()); 
for(int i=1;i<cloudletNum; i++) { 
minLoad = vmLoad[ vmNum — 1] + time[i][vmNum - 1]; 
idx = vmNum - 1; 
for(int j= vmNum - 2;j>=0;j--){ 
// 如 果 当 前 虚拟 机 还 未 分 配 任务 , 则 比较 完 当 前 任务 
// 分 配给 该 虚拟 机 是 否 最 优 , 即 可 以 退出 循环 
if(vnLoad[j] == 0){ 
if(minLoad> =time[i][j]) idx- j; 
break; 
) 
if(minLoad» vmLoad[ j] + time[i][j]){ 
minLoad = vmLoad[ j] + time[i][j]; 
idx = j; 
} 
// 实 现 简单 的 负载 均衡 
else if(minLoad == vnLoad[ j] + time[i][j]&&vmTasks[j]< vnTasks[ idx]) 
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idx-j; 
} 
vmLoad[ idx] += time[i][ idx]; 
vmTasks[ idx]++; 
cloudletList. get(i).setVmId(vmList. get( idx). getId()); 
} 


} 
// 根 据 指令 长 度 降序 排列 任务 ,需要 导入 包 java. util. Comparator 
private class CloudletComparator implements Comparator <Cloudlet >{ 
public int compare(Cloudlet cl1,Cloudlet c12)( 
return (int)(c12.getCloudletLength() - cll. getCloudletLength()); 
} 


} 
// 根 据 执行 速度 升序 排列 虚拟 机 
private class VmComparator implements Comparator < Vm>{ 
@Override 
public int compare(Vm vml, Vm vm2) ( 
return (int) (vml.getMips() — vm2.getMips()); 
} 


4.3.2. 仿真 核心 代码 


用 户 可 以 根据 自己 的 需求 ,对 主机 相关 参数 配置 (机 器 数量 及 特点 ) 、 云 计算 应 用 (任务 、 
数量 和 需求 )、VM、 用 户 和 应 用 类 型 的 数量 及 代理 调度 策略 等 方面 进行 仿真 测试 。 


1. 仿真 步骤 

(1) 初始 化 CloudSim 包 。 
(2) 创建 数据 中 心 : 

(D 创建 主机 列表 。 

@ 创建 PE 列表 。 


© 创建 PE 并 将 其 添加 到 上 一 步 创 建 的 PE 列表 中 ,可 对 其 ID 和 MIPS 进行 设置 。 
© 创建 主机 ,并 将 其 添加 到 主机 列表 中 ,主机 的 配置 参数 有 ID、 内 存 、 带 宽 、 存 储 、PE 


及 虚拟 机 分 配 策略 (时 间或 空间 共享 ) 。 


C) 创建 数据 中 心 特征 对 象 ,用 来 存储 数据 中 心 的 属性 ,包含 体系 结构 、 操 作 系统 、 机 器 列 
表 、 分 配 策略 (时 间 、 空 间 共享 ) 时 区 以 及 各 项 费用 (内 存 ` 外 存 、. 带 宽 和 处 理 器 资源 的 费用 ) 。 

最 后 ,创建 一 个 数据 中 心 对 象 , 它 的 主要 参数 有 名 称 、 特 征 对 象 . 虚 拟 机 分 配 策略 \ 月 
F 数据 仿真 的 存储 列表 以 及 调度 间隔 。 


(3) 创建 数据 中 心 代理 


数据 中 心 代理 负责 在 云 计 算 中 根据 用 户 的 QoS 要 求 协 调用 户 及 服务 供应 商 和 部 署 服 


BEF « 


(4) 创建 虚拟 机 


对 虚拟 机 的 参数 进行 设置 ,主要 包括 ID ,用户 ID, MIPS, CPU 数量 内存、 带宽 、 外 存 、 
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虚拟 机 监控 器 ,调度 策略 ,并 提交 给 任务 代理 。 

(5) 创建 云 任务 

创建 指定 参数 的 云 任务 , 设 定 任务 的 用 户 ID ,并 提交 给 任务 代理 。 在 这 一 步 可 以 设置 
需要 创建 的 云 任 务 数量 以 及 任务 长 度 等 信息 。 

(6) 在 这 一 步调 用 自 定义 的 任务 调度 策略 ,分 配 任务 到 虚拟 机 

(7) 启动 仿真 

(8) 在 仿真 结束 后 统计 结果 

2. 详细 实现 代码 

下 面 通 过 注释 的 方式 讲解 贪心 策略 的 仿真 核心 代码 ,在 org. cloudbus. cloudsim. 
examples 包 中 新 建 类 ExtendedExample2 ,实现 代码 如 下 。 


package org. cloudbus. cloudsim. examples; 
import java.text. DecimalFormat; 

import java.util. * ; 

import org.cloudbus.cloudsim. * ; 

import org. cloudbus. cloudsim. core. CloudSim; 
import org. cloudbus. cloudsim. provisioners. * ; 


// 测 试 调度 策略 的 仿真 核心 代码 

public class ExtendedExample2{ 

private static List <Cloudlet > cloudletList; // 任 务 列表 
private static int cloudletNum = 10; // 任 务 总 数 
private static List < Vm» vnList; // 虚 拟 机 列表 
private static int vmNum - 5; // 虚 拟 机 总 数 


public static void main(String[] args){ 

Log. printLine("Starting ExtendedExample2..."); 

try{ 
int num_user = 1; 
Calendar calendar = Calendar. getInstance() ; 
Boolean trace_flag = false; 
// 第 一 步 : 初始 化 CloudSim 包 
CloudSim. init(num user, calendar, trace flag); 
// 第 二 步 : 创建 数据 中 心 
Datacenter datacenter0 = createDatacenter("Datacenter 0"); 
// 第 三 步 : 创建 数据 中 心 代理 
DatacenterBroker broker = createBroker(); 
int brokerld = broker. getId(); 
// 设 置 虚拟 机 参数 
int vmid = 0; 
int[] mipss = new int[](278, 289, 132, 209,286] ; 
long size - 10000; 
int ram - 2048; 
long bw = 1000; 
int pesNumber = 1; 


String vmm - "Xen"; 
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// 第 四 步 : 创建 虚拟 机 

vmList = new ArrayList < Vm»(); 

for(int i= 0;i< vmNum;it+){ 

vmList. add(new Vm(vmid, brokerId, mipss[ i], pesNumber, ram, bw, size, vmm, new 
CloudletSchedulerSpaceShared())); 
vmidt++; 
} 
// 提 交 虚 拟 机 列表 
broker. submitVmList(vmList) ; 
// 任 务 参数 
int id = 0; 
long[] lengths = new long[ ]{19365, 49809, 30218, 44157, 16754, 18336, 20045, 31493, 
30727,31017}; 
long fileSize = 300; 
long outputSize = 300; 
UtilizationModel utilizationModel = new UtilizationModelFull(); 
// 第 五 步 : 创建 云 任务 
cloudletList = new ArrayList <Cloudlet >(); 
for(int i=0;i<cloudletNum; i++) { 
Cloudlet cloudlet = new Cloudlet( id, lengths[ i], pesNumber, fileSize, outputSize, 
utilizationModel, utilizationModel, utilizationModel); 

cloudlet. setUserId(brokerId) ; 
cloudletList. add(cloudlet) ; 
idet; 


} 
// 提 交 任 务 列表 
broker. submitCloudletList(cloudletList) ; 
// 第 六 步 : 绑 定 任务 到 虚拟 机 
broker. bindCloudletsToVmsTimeAwared(); 
/ /broker. bindCloudletsToVmsSimple( ) ; 
// 第 七 步 : 启动 仿真 
CloudSim. startSimulation(); 
// 第 八 步 : 统计 结果 并 输出 结果 
List< Cloudlet > newList = broker.getCloudletReceivedList(); 
CloudSim. stopSimulation(); 
printCloudletList(newList); 
datacenter0.printDebts(); 
Log. printLine("ExtendedExample2 finished!"); 
}catch(Exception e)( 
e. printStackTrace() ; 
Log. printLine("Unwanted errors happen") ; 


} 
} 
// 下 面 是 创建 数据 中 心 的 步骤 


private static Datacenter createDatacenter(String name){ 


/人 1. 创建 主机 列表 
List < Host > hostList = new ArrayList < Host >(); 


//PE 及 主机 参数 
int mips = 1000; 
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int hostId = 0; 

int ram = 2048; 

long storage = 1000000; 

int bw = 10000; 

for(int i=0;i< vmNum;i++){ 
//2. 创 建 PE 列表 
List<Pe> peList = new ArrayList <Pe>(); 
//3. 创 建 PE 并 加 入 列表 
peList. add(new Pe(0, new PeProvisionerSimple(mips))); 
1/4, 创建 主机 并 加 入 列表 
hostList. add( 

new Host( 
hostId, 

new RanProvisionerSimple(ram), 

new BwProvisionerSimple(bw), 

storage, 

peList, 

new VmSchedulerTimeShared(peList) 

) 

i 

hostId++; 

} 


// 数 据 中 心 特征 参数 
String arch - "x86"; 
String os = "Linux"; 
String vmm - "Xen"; 
double time zone - 10.0; 
double cost = 3.0; 
double costPerMem - 0.05; 
double costPerStorage - 0.001; 
double costPerBw - 0.0; 
LinkedList < Storage > storageList = new LinkedList < Storage»(); 
//5. 创 建 数据 中 心 特征 对 象 
DatacenterCharacteristics characteristics = new DatacenterCharacteristics(arch, os, 
vmm, hostList, time_zone, cost, costPerMem, costPerStorage, costPerBw) ; 
//6. 创建 数据 中 心 对 象 
Datacenter datacenter = null; 
try{ 
datacenter = new Datacenter(name, characteristics, 
new VnAllocationPolicySimple(hostList), storageList, 0); 
)catch(Exception e)( 
e. printStackTrace(); 
) 
return datacenter; 


) 


// 创 建 数据 中 心 代理 
private static DatacenterBroker createBroker()( 
DatacenterBroker broker - null; 
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try{ 

broker = new DatacenterBroker("Broker") ; 
}catch(Exception e)( 

e. printStackTrace() ; 

return null; 

} 

return broker; 


} 


// 输 出 统计 信息 
private static void printCloudletList(List « Cloudlet> list) { 
int size - list.size(); 
Cloudlet cloudlet; 
String indent - " "; 
Log. printLine(); 
Log. printLine(" ========== OUTPUT =========="); 
Log.printLine("Cloudlet ID" + indent + "STATUS" + indent + 
"Datacenter ID" + indent + "VMID" + indent + 
"Time" + indent + "Start Time" + indent + "Finish Tine"); 
DecimalFormat dft = new DecimalFormat("# # #. # #"); 
for(int i = 0;i<size;it+){ 
cloudlet = list. get(i); 
Log. print(indent + cloudlet.getCloudletId() + indent + indent); 
if (cloudlet. getCloudletStatus() == Cloudlet. SUCCESS) { 
Log. print ("SUCCESS") ; 
Log. printLine(indent + indent + cloudlet.getResourceld() + indent + 
indent + indent + cloudlet.getVmId() + indent + indent + 
dft. format (cloudlet. getActualCPUTime()) + indent + 
indent + dft.format(cloudlet.getExecStartTime()) + indent + indent + 
dft. format(cloudlet.getFinishTime())); 
} 
l 
h 


3. 运行 结果 分 析 

由 于 虚拟 机 对 任务 分 配 使 用 了 空间 共享 策略 ,所 以 运行 在 同一 个 虚拟 机 上 的 任务 ,必须 
按 顺 序 完 成 。 图 4-15 为 基于 贪心 策略 的 仿真 结果 ,图 中 显示 任务 7、8 被 分 配 到 了 虚拟 机 0 
上 运行 ,从 任务 开始 执行 的 时 间 看 ,任务 8 确实 是 在 任务 7 完成 后 执行 的 。 图 中 还 显示 了 所 
有 任务 的 最 终 分 配 结果 及 运行 情况 ,用 户 可 以 据 此 验证 自己 的 调度 策略 是 否 符合 要 求 。 
图 4-16 为 基于 顺序 分 配 策略 的 仿真 结果 ,该 方法 的 总 执行 时 间 为 467. 76s ,而 贪心 策略 只 需 
283. 46s, 节 省 了 约 39% 的 时 间 。 


4.3.3 平台 重 编译 


实现 自 定义 的 调度 算法 后 ,用 户 就 可 以 重新 编译 并 打包 CloudSim ,测试 或 发 布 自己 的 
新 平台 。CloudSim 平台 重 编译 主要 通过 Ant 工具 完成 。 
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atacenterID VMID Time StartTime Finish Time 


D 
2 0 1328 01 11338 
2 3 144 01 1485 
2 4 15439 01 15449 
2 1 17235 01 1745 
2 0 11053 11338 22391 
2 4 7008 15449 — 22458 
2 2 22092 01 22902 
SUCCESS 2 3 8773 1485 23623 
SUCCESS 2 1 87 — 17245 — 23845 
SUCCESS 2 4 5858 22458 20318 
**''*Datacenter Datacenter (erre 
User id Debt 
3 562 
ExtendedExample2 finished! 


图 4-15 贪心 策略 的 仿真 结果 


CloudletID STATUS DatacenterID VMID Time StartTime Finish Time 
4 SUCCESS 2 4 58.58 0.1 58.68 


0 SUCCESS 2 0 6966 01 6976 
5 SUCCESS 2 0 6596 69.76 136.71 
9 SUCCESS 2 4 10845 5868 16713 
1 success 2 1 17235 01 17245 
3 SUCCESS 2 3 2128 01 2138 
2 SUCCESS 2 2 22892 01 22802 
6 SUCCESS 2 1 8836 17245 2418 
8 SUCCESS 2 3 14702 21138 358.39 
7 SUCCESS 2 2 238.58 22902 4676 
Datacenter Datacenter (*r** 
User id Debt 
3 562 
ExtendedExample2 finished! 


图 4-16 ”顺序 分 配 策略 的 仿真 结果 


从 http://ant. apache. org/ 下 载 Ant 工具 ,本 书 使 用 的 版 本 为 1. 8.2。 将 其 解压 到 目录 
C:\apache-ant-1. 8.2。 设 置 环境 变量 ,在 Path 中 加 入 C:\apache-ant-1.7.1\bin。 将 命令 行 
切换 到 扩展 的 CloudSim 路 径 (build. xml 所 在 目录 ) ,在 命令 行 下 输入 命令 C:\cloudsim- 
3.0.0>ant, 批 量 编译 CloudSim 源 文件 ,生成 的 文件 会 按照 bulid. xml 的 设置 存储 到 指定 
位 置 ,编译 成 功 后 自动 打包 生成 cloudsim-new. jar 并 存放 在 C:\cloudsim-3. 0.0\jars。 扩 展 
的 CloudSim 平台 生成 后 ,在 环境 变量 ClassPath 中 增加 路 径 : C:\CloudSim\jars\cloudsim- 
new. jar。 然 后 根据 前 面 介绍 的 步 又, 即 可 在 新 的 平台 下 编写 自己 的 仿真 验证 程序 。 


4.4 CloudSim 的 编程 实践 


4.4.1 CloudSim 任务 调度 编程 


下 面 讲解 org. cloudbus. cloudsim. examples 包 中 的 CloudSimExamplel ,CloudSimExample4 。 

CloudSimExamplel 创建 了 一 台 主机 、 一 个 任务 的 数据 中 心 , 展 示 了 数据 中 心 、 代 理 、 主 
机 、 虚 拟 机 ` 云 任务 等 的 简单 使 用 以 及 云 仿真 基本 流程 。 这 是 最 简单 的 、 最 基本 的 一 个 程序 。 
通过 这 一 例子 可 以 了 解 到 使 用 CloudSim 仿真 的 基本 步骤 ,基本 类 的 使 用 方法 。 云 仿真 的 
基本 步骤 是 : 

CD 初始 化 CloudSim 包 ; 

(2) 创建 数据 中 心 Datacenter ,创建 过 程 创建 主机 列表 List < Host > hostList; 


126 


云 计算 与 大 数据 技术 理论 及 应 


(3) 创建 数据 中 心 代 理 DatacenterBroker; 
(4) 创建 虚拟 机 Vm; 

(5) 创建 云 任务 Cloudlet; 

(6) 启动 仿真 ; 

CD 统计 结果 并 输出 结果 。 


public class CloudSimExamplel { 
private static List <Cloudlet > cloudletList; // 任 务 列表 
private static List < Vm» vmlist; // 虚 拟 机 列表 
public static void main(String[] args) { 
Log. printLine("Starting CloudSimExamplel..."); 
try { 
// 第 一 步 : 初始 化 CloudSim 包 , 必须 在 创建 实体 前 调用 
int num_user = 1; // 用 户 数 
Calendar calendar = Calendar.getInstance(); 
boolean trace flag - false; // 表 示 是 否 跟踪 
CloudSim, init(num_user, calendar, trace flag); 
// 第 二 步 : 创建 数据 中 心 
// 数 据 中心 是 云 资 源 的 提供 者 ,至 少 需要 一 个 数据 中 心 模拟 云 实验 
Datacenter datacenter0 = createDatacenter("Datacenter 0"); 
// 第 三 步 : 创建 数据 中 心 代 理 
DatacenterBroker broker = createBroker(); 
int brokerId = broker.getId(); 
// 第 四 步 : 创建 虚拟 机 
vmlist = new ArrayList < Vm»(); 


// 设 置 虚拟 机 参数 
int vmid = 0; // 虚 拟 机 id 
int mips = 1000; // 主 频 (MB) 
long size = 10000; // 硬 盘 (MB) 
int ram = 512; // 虚 拟 机 内 存 (MB) 
long bw = 1000; // 带 宽 (MB) 
int pesNumber = 1; //CPU 核 数 
String vmm = "Xen"; // VMM 名 
// 创 建 虚拟 机 
Vm vm = new Vm(vmid, brokerId, mips, pesNumber, ram, bw, size, vmm, new 
CloudletSchedulerTimeShared()); // 云 任务 调度 使 用 时 间 共 享 策略 
// 添 加 到 虚拟 机 列表 
vmlist.add(vm); 
// 提 交 虚 拟 机 列表 到 代理 


broker. submitVmList(vmlist) ; 
// 第 五 步 : 创建 云 任务 
cloudletList = new ArrayList < Cloudlet >(); 


// 任 务 参 数 

int id = 0; // 任 务 id 

long length = 400000; // 任 务 计 算 量 

long fileSize = 300; // 文 件 大 小 ,影响 传输 的 带宽 花 销 
long outputSize = 300; // 输 出 文件 大 小 ,影响 传输 的 带宽 花 销 


UtilizationModel utilizationModel = new UtilizationModelFull(); 


// 添 加 任务 到 任务 列表 
cloudletList. add(cloudlet); 


第 4 章 云 计算 编 程 实践 (a> 


Cloudlet cloudlet = new Cloudlet(id, length, pesNumber, fileSize, outputSize, 


utilizationModel, utilizationModel, utilizationModel) ; 


cloudlet. setUserId(brokerId) ; // 设 置 任务 用 户 1d 
cloudlet. setVmId(vmid) ; /设置 虚拟 机 Id 
// 提 交 任 务 列表 


broker. submitCloudletList(cloudletList) ; 
// 第 六 步 : 启动 仿真 
CloudSim. startSimulation(); 
CloudSim. stopSimulation(); 
// 第 七 步 : 统计 结果 并 输出 结果 


List < Cloudlet > newList = broker.getCloudletReceivedList(); 


printCloudletList(newList); 
// 打 印 每 个 数据 中 心 的 成 本 
datacenter0.printDebts(); 
Log. printLine("CloudSimExamplel finished!"); 
) catch (Exception e) ( 
e. printStackTrace(); 
Log. printLine("Unwanted errors happen"); 
l 
} 
private static Datacenter createDatacenter(String name) { 
//1. 创建 主机 列表 
List< Host > hostList = new ArrayList < Host >(); 
//2. 创建 主机 包含 的 PE 或 者 CPU 处 理 器 列表 
// 这 个 例子 中 ,主机 CPU 只 有 一 个 核 芯 
List<Pe> peList = new ArrayList <Pe>(); 
int mips = 1000; 
//3. 创建 核 芯 并 添加 到 核 芯 列 表 
peList.add(new Pe(0, new PeProvisionerSimple(mips))); 
//4. 创建 主机 并 添加 到 主机 列表 
int hostId = 0; 
int ram = 2048; 
long storage = 1000000; 
int bw = 10000; 


// 创 建 一 个 数据 中 心 


//Pe 是 CPU 单元 
//Pe 速率 


// 内 存 (MB) 
// 硬 盘存 储 
// 带 宽 


hostList.add(new Host(hostId，new RamProvisionerSimple(ram), 


new BwProvisionerSimple(bw), storage, peList, 


new VnSchedulerTimeShared(peList)) 
E 
//5. 创建 存储 数据 中 心 属性 的 数据 中 心 特征 对 象 
String arch = "x86"; 
String os = "Linux"; 
String vmm = "Xen"; 
double time zone - 10.0; 
double cost - 3.0; 
double costPerMem - 0.05; 
double costPerStorage - 0.001; 
double costPerBw - 0.0; 


// 虚 拟 机 使 用 时 间 共 享 策略 


// 系 统 架 构 
// 操 作 系统 
// 虚 拟 机 监视 器 
// 时 区 

// 单 位 时 间 成 本 
// 单 位 内 存 成 本 
// 单 位 存储 成 本 
// 单 位 带宽 成 本 


LinkedList < Storage > storageList = new LinkedList < Storage>(); // 存 储 列表 
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DatacenterCharacteristics characteristics - new DatacenterCharacteristics(arch, 
os, vmm, hostList, time zone, cost, costPerMem, costPerStorage, costPerBw); 
//6. 创建 数据 中 心 对 象 
Datacenter datacenter = null; 
try { 
datacenter = new Datacenter(name, characteristics, new VmAllocationPolicySimple(hostList), 
storageList, 0); 
) catch (Exception e) ( 
e. printStackTrace(); 
) 
return datacenter; 
} 
private static DatacenterBroker createBroker() { // 创 建 数据 中 心 代理 
DatacenterBroker broker = null; 
try { 
broker = new DatacenterBroker("Broker") ; 
} catch (Exception e) { 
e. printStackTrace( ) ; 
return null; 
} 
return broker; 
} 
private static void printCloudletList(List <Cloudlet> list) { // 打 印 云 任 务 的 运行 结果 
int size = list. size(); 
Cloudlet cloudlet; 
String indent - " "; 
Log. printLine(); 
Log. printLine(" OUTPUT 
Log.printLine("Cloudlet ID" + indent + "STATUS" + indent 
+ "Data center ID" + indent + "VM ID" + indent + "Time" + indent 
+ "Start Time" + indent + "Finish Time") ; 
DecimalFormat dft = new DecimalFormat(" # ##.+4 +"); 
for (int i = 0; i< size; i++) { 
cloudlet = list. get(i); 
Log. print(indent + cloudlet.getCloudletId() + indent + indent) ; 
if (cloudlet. getCloudletStatus() == Cloudlet. SUCCESS) { 
Log. print("SUCCESS" ) ; 
Log. printLine(indent + indent + cloudlet.getResourceld() 
+ indent + indent + indent + cloudlet.getVmId() 
+ indent + indent + dft. format(cloudlet. getActualCPUTime( ) ) 
+ indent + indent + dft. format(cloudlet. getExecStartTime() ) 
+ indent + indent + dft. format(cloudlet. getFinishTime())) ; 
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Cloudlet ID STATUS Data center ID VM ID Time Start Time Finish Time 
0 SUCCESS 2 0 400 0.1 400.1 

3x** Datacenter: Datacenter 0 ***** 

User id Debt 

3 35.6 

JOOOOOOOOOOOOOOOOOOOOOHOOOOOOHO|eee 

CloudSimExamplel finished! 


CloudSimExample4 展示 了 如 何 创 建 两 个 数据 中 心 ,每 个 数据 中 心 一 台 主机 ,并 在 其 上 
运行 两 个 云 任 务 。 代 理会 自动 为 虚拟 机 选择 在 哪个 数据 中 心 的 哪个 主机 上 创建 工作 。 


CloudSimExample4. java 


public static void main(String[] args) ( 
Log. printLine("Starting CloudSimExample4...") ; 
try t 

// 第 一 步 : 初始 化 CloudSim 

int num user = 1; 

Calendar calendar - Calendar.getInstance(); 

boolean trace flag - false; 

CloudSim. init(num user, calendar, trace flag); 

// 第 二 步 : 创建 数据 中 心 

// 创 建 两 个 数据 中 心 

Datacenter datacenter0 = createDatacenter("Datacenter 0"); 

Datacenter datacenterl - createDatacenter("Datacenter 1"); 

// 第 三 步 : 创建 数据 中 心 代理 

DatacenterBroker broker = createBroker(); 

int brokerId = broker.getId(); 

// 第 四 步 : 创建 虚拟 机 

vmlist = new ArrayList < Vm>(); 

// 虚 拟 机 属性 

int vmid = 0; 

int mips - 250; 

long size - 10000; 

int ram = 512; 

long bw - 1000; 

int pesNumber = 1; 

String vmm = "Xen"; 

// 创 建 两 个 虚拟 机 

Vm vml = new Vm(vmid, brokerId, mips, pesNumber, ram, bw, size, vmm, new 
CloudletSchedulerTimeShared()); 

vmid-*; 

Vm vm2 = new Vm(vmid, brokerId, mips, pesNumber, ram, bw, size, vmm, new 
CloudletSchedulerTimeShared()); 

// 添 加 虚拟 机 到 虚拟 机 列表 

vmlist. add(vm1) ; 

vmlist. add(vm2) ; 

// 提 交 虚 拟 机 列表 到 代理 

broker.submitVmList(vmlist); 
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// 第 五 步 : 创建 两 个 任务 

cloudletList = new ArrayList <Cloudlet >(); 

// 任 务 参 数 

int id = 0; 

long length - 40000; 

long fileSize - 300; 

long outputSize - 300; 

UtilizationModel utilizationModel = new UtilizationModelFull(); 

Cloudlet cloudleti = new Cloudlet (id, length, pesNumber, fileSize, outputSize, 


utilizationModel, utilizationModel, utilizationModel); 


cloudlet1. setUserId(brokerId) ; 
idet; 
Cloudlet cloudlet2 - new Cloudlet(id, length, pesNumber, fileSize, outputSize, 


utilizationModel, utilizationModel, utilizationModel); 


) 


cloudlet2. setUserId(brokerId); 

// 添 加 任务 到 任务 列表 

cloudletList. add(cloudlet1) ; 

cloudletList. add(cloudlet2) ; 

// 提 交 任 务 列表 

broker. submitCloudletList(cloudletList) ; 

// 代 理 绑 定 任务 与 虚拟 机 

// 绑 定 后 任务 只 在 对 应 的 虚拟 机 上 运行 

broker. bindCloudletToVm(cloudlet1. getCloudletId( ), vml. getId()); 
broker. bindCloudletToVm(cloudlet2. getCloudletId( ), vm2.getId()); 
// 第 六 步 : 启动 仿真 

CloudSim. startSimulation( ); 

// 第 七 步 : 统计 结果 并 输出 结果 

List<Cloudlet > newList = broker.getCloudletReceivedList(); 
CloudSim. stopSimulation(); 

printCloudletList(newList); 

// 打 印 每 个 数据 中 心 的 成 本 

datacenter0. printDebts(); 

datacenterl.printDebts(); 

Log. printLine("CloudSimExample4 finished!"); 


catch (Exception e) ( 


e. printStackTrace(); 
Log. printLine("The simulation has been terminated due to an unexpected error"); 


运行 结果 如 下 : 


Starting CloudSimExample4... 


Initialising... 


Starting CloudSim version 3.0 
Datacenter 0 is starting... 
Datacenter 1 is starting... 
Broker is starting... 
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Entities started. 


0.0: Broker 
0.0: Broker 
0.0: Broker 


: Cloud Resource List received with 2 resource(s) 
: Trying to Create VM #0 in Datacenter 0 
: Trying to Create VM #1 in Datacenter 0 


[VmScheduler. vmCreate] Allocation of VM #1 to Host #0 failed by MIPS 


0.1: Broker 
0.1: Broker 
0.1: Broker 
0.2: Broker 
0.2: Broker 
0.2: Broker 


NNNN 


: VM #0 has been created in Datacenter #2, Host #0 
: Creation of VM #1 failed in Datacenter #2 

: Trying to Create VM #1 in Datacenter 1 

: VM #1 has been created in Datacenter #3, Host #0 
: Sending cloudlet 0 to VM #0 

: Sending cloudlet 1 to VM #1 


: Broker: Cloudlet 0 received 

: Broker: Cloudlet 1 received 

: Broker: All Cloudlets executed. Finishing... 
: Broker: Destroying VM #0 


160.2: Broker: Destroying VM #1 
Broker is shutting down... 


Simulation: 


No more future events 


CloudInformationService: Notify all CloudSim entities for shutting down. 


Datacenter 0 is shutting down. 


Datacenter : 


1 is shutting down... 


Broker is shutting down... 
Simulation completed. 
Simulation completed. 


= = OUTPUT = = 
Cloudlet ID STATUS Data center ID VM ID Time Start Time Finish Time 
0 SUCCESS 2 0 160 0.2 160.2 
Im SUCCESS 3 1 160 0.2 160.2 
3xxx* Datacenter: Datacenter 0 ***** 
User id Debt 
4 35.6 


GODGOOOGOOUOE 


SOE EEE ES EEE 


3xxx* Datacenter: Datacenter_1 ***** 


User id 


Debt 


4 35.6 


EEE: 


EI EE IIE 


CloudSimExample4 finished! 


值得 注意 的 是 ,由 于 数据 中 心 的 主机 都 用 了 VmSchdeulerSpaceShared 策略 , 见 
createDatacenter O 函数 的 代码 ,如 下 ,而 主机 只 有 一 个 CPU 核 芯 , 故 VM & 1 创建 失败 。 


hostList. add(new Host(hostId，new RamProvisionerSimple(ram), 


new BwProvisionerSimple(bw), storage, peList, 
new VnSchedulerSpaceShared(peList) 


); 
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4.4.2 CloudSim 网 络 编程 


以 org. cloudbus. cloudsim. examples. network. NetworkExamplel 为 例 , 该 例子 展示 了 
如 何 创建 一 个 有 网 络 拓扑 的 数据 中 心 并 且 在 其 上 运行 一 个 云 任务 。 例 子 通过 读 取 
topology. brite 文件 来 构造 网 络 拓扑 。 网 络 拓扑 的 信息 包括 节点 的 位 置 .节点 间 的 有 向 边 、 
边 时 延 、 边 带宽 等 信息 。 能 够 模拟 基于 网 络 位 置 . 时 延 , 带 宽 等 的 网 络 环境 ,有 效 地 计算 网 络 
传输 造成 的 花 销 。 与 前 面 例子 不 同 的 是 ,网 络 编程 需要 调用 org. cloudbus. cloudsim. 
NetworkTopology 构造 网 络 拓扑 图 ,然后 把 CloudSim 实体 与 拓扑 图 的 节点 进行 映射 。 


public static void main(String[] args) { 
Log. printLine("Starting NetworkExamplel..."); 
try ( 

// 第 一 步 : 初始 化 CloudSim 

int num user = 1; 

Calendar calendar - Calendar.getInstance(); 

boolean trace flag - false; 

CloudSim.init(num user, calendar, trace flag); 

// 第 二 步 : 创建 数据 中 心 

Datacenter datacenter0 = createDatacenter("Datacenter 0"); 

// 第 三 步 : 创建 代理 

DatacenterBroker broker = createBroker(); 

int brokerId = broker.getId(); 

// 第 四 步 : 创建 一 个 虚拟 机 

vmlist = new ArrayList <Vm>(); 

// 虚 拟 机 参数 

int vmid = 0; 

int mips = 250; 

long size - 10000; 

int ram - 512; 

long bw - 1000; 

int pesNumber - 1; 

String vmm - "Xen"; 

// 创 建 虚拟 机 

Vm vmi = new Vm(vmid, brokerId, mips, pesNumber, ram, bw, size, vmm, new 
CloudletSchedulerTimeShared()); 

vnlist.add(vml); 

// 提 交 虚 拟 机 列表 到 代理 

broker. subnitVmList(vmlist); 

// 第 五 步 : 创建 一 个 任务 

cloudletList = new ArrayList < Cloudlet»(); 

// 任 务 参数 

int id - 0; 

long length - 40000; 

long fileSize - 300; 

long outputSize - 300; 

UtilizationModel utilizationModel - new UtilizationModelFull(); 
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Cloudlet cloudlet1 = new Cloudlet(id, length, pesNumber, fileSize, outputSize, 


utilizationModel, utilizationModel, utilizationModel); 


// 的 绝对 路 径 ; 


cloudlet1. setUserId(brokerId) ; 

cloudletList. add(cloudlet1) ; 

// 提 交 任 务 列表 到 代理 

broker. subnitCloudletList(cloudletList); 

// 第 六 步 : 配置 网 络 

// 加 载 网 络 拓扑 文件 

NetworkTopology. buildNetworkTopology("topology. brite") ; 

// 注 意 : 直接 运行 该 例子 , 可 能 会 运行 失败 , 报错 找 不 到 topology. brite 

// 解 决 方法 : 方法 一 : buildNetworkTopology( ) 中 的 参数 改 为 topology. brite 
方法 二 : 把 topology. brite 复制 到 项 目的 根 目录 下 


//Cloudsim 实体 与 拓扑 图 中 的 对 象 建立 映射 
// 数 据 中 心 对 应 拓扑 图 的 节点 0 


int briteNode 


=0; 


NetworkTopology. mapNode(datacenter0. getId(), briteNode) ; 

// 代 理 对 应 拓扑 图 的 节点 3 

briteNode = 3; 

NetworkTopology. mapNode(broker. getId( ), briteNode) ; 

// 第 七 步 : 启动 仿真 

CloudSim. startSimulation(); 

// 第 八 步 : 统计 结果 并 输出 结果 

List< Cloudlet > newList = broker.getCloudletReceivedList(); 


CloudSim. stopSimulation(); 


) 


printCloudletList(newList); 

// 打 印 数 据 中 心 的 成 本 

datacenter0. printDebts(); 

Log. printLine("NetworkExamplel finished! "); 


catch (Exception e) ( 


e. printStackTrace(); 
Log. printLine("The simulation has been terminated due to an unexpected error"); 


topology. brite 如 下 : 


Topology: ( 5 Nodes，8 Edges ) 
Model (1 - RTWaxman):5551 2 0.15000000596046448 0.20000000298023224 1 1 10.0 1024.0 


Nodes: (5) 


BWW ww 


-1 RT NODE 
-1 RT NODE 
-1 RT NODE 
-1 RT NODE 
-1 RT NODE 


teak hit) Saal = EBD 
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1052207059470, 2:1 10:0 =i — I ER U 
2 3 0 2.8284271247461903 3.9 10.0-1 -1 ERT U 
3. 3: 1 3.605551275463989 4.1 10.0 —1 -1 ERT U 
443 2.0 5:0 10.0. =V — TO ER DY 
By xb Ph cub 4-053070 1 Seat) 
6 0 4 2.0 3:0 10.0 =1 =I ER U 
UTE R A 2:195107005 12 2 E ie) 


程序 会 寻找 标记 “Nodes:” 和 “Edges:”,“Nodes” 是 节点 信息 ,其 中 第 一 列 是 节点 序号 ， 
第 二 列 是 节点 的 横 坐 标 ,第 三 列 是 纵 坐 标 。“Edges” 是 边 信息 ,第 一 列 是 边 序号 ,第 二 列 是 
始 节点 序号 ,第 三 列 是 终 节 点 序号 ,第 四 列 是 边 长 度 ,第 五 列 是 边 时 延 ,第 六 列 是 边 带 宽 。 
CloudSim 中 只 用 到 了 以 上 信息 。 如 此 ,我 们 就 能 构造 自己 需要 的 网 络 拓扑 了 。 

运行 结果 如 下 : 

EB: 如 “7. 800000190734863: Broker: Trying to Create VM #0 in Datacenter_0” 中 
的 7. 800000190734863 是 CloudSim 中 的 仿真 时 间 。 


Starting NetworkExamplel... 

Initialising... 

Topology file: topology. brite 

Starting CloudSim version 3.0 

Datacenter 0 is starting... 

Broker is starting... 

Entities started. 

0.0: Broker: Cloud Resource List received with 1 resource(s) 
7.800000190734863: Broker: Trying to Create VM #0 in Datacenter 0 
15.700000381469726: Broker: VM #0 has been created in Datacenter #2, Host #0 
15.700000381469726: Broker: Sending cloudlet 0 to VM #0 
183.50000057220458: Broker: Cloudlet 0 received 
183.50000057220458: Broker: All Cloudlets executed. Finishing... 
183. 50000057220458: Broker: Destroying VM #0 

Broker is shutting down... 

Simulation: No more future events 

CloudInformationService: Notify all CloudSim entities for shutting down. 
Datacenter 0 is shutting down... 

Broker is shutting down... 

Simulation completed. 

Simulation completed. 


== QUTPUT == 

Cloudlet ID STATUS Datacenter ID VM ID Time Start Time Finish Time 
0 SUCCESS 2 0 160 19.6 179.6 

3xxxx Datacenter: Datacenter 0 ***** 

User id Debt 

B 35.6 


JOOIOGOOOIOOROOROOOOOOOOOOH EEE 
NetworkExamplel finished! 
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4.4.3 CloudSim 能 耗 编程 


能 耗 模拟 的 例子 有 多 个 ,代码 实现 都 类 似 。 这 些 例 子 通过 读 取 负 载 文件 中 的 CPU A 
用 率 数据 作为 云 任务 的 利用 率 ,实现 云 任 务 负载 的 动态 变化 。 因 此 仿真 过 程 中 ,会 出 现 主机 
的 负载 不 平衡 ,程序 通过 动态 迁移 负载 过 高 的 主机 中 的 虚拟 机 到 负载 低 的 主机 ,实现 了 负载 
动态 适应 的 算法 ,并 且 应 用 能 耗 一 一 CPU 利用 率 模 型 计算 数据 中 心 的 能 耗 。 事 实 上 ,这 小 
节 介绍 的 程序 不 仅仅 适用 于 能 耗 编程 ,更 大 的 意义 在 于 展示 了 虚拟 机 调度 算法 ,可 以 计算 虚 
拟 机 的 迁移 时 间 、 服 务 等 级 协议 (Service-Level Agreement. SLA) 的 违背 率 、 主 机 利用 率 等 
指标 。 这 样 我 们 就 能 进行 动态 的 虚拟 机 调度 .任务 调度、 能 耗 模拟 。 

而 这 些 例 子 的 差别 在 于 虚拟 机 分 配 策略 vmAllocationPolicy 和 虚拟 机 选择 策略 
vmSelectionPolicy 的 不 同 。vmAllocationPolicy 的 作用 是 为 虚拟 机 选择 要 放置 的 主机 ， 
而 vmSelectionPolicy 的 作用 是 选择 由 于 主机 负载 过 高 而 要 迁移 的 虚拟 机 。 下 面 以 
org. cloudbus. cloudsim. examples. power. planetlab. IqrMc 为 例 解释 说 明 。IgrMc 中 使 用 
T PowerVmAllocationPolicyMigrationInterQuartileRange 的 虚拟 机 分 配 策 略 和 
PowerVmSelectionPolicyMaximumCorrelation 的 虚拟 机 选择 策略 。Inter Quartile Range 
是 指 四 分 位 数 间 距 。Maximum Correlation 是 指 最 大 相关 系数 。IqrMec. java 的 代码 十 分 简 
单 , 但 实际 上 这 个 例子 相 比 前 面 的 例子 复杂 得 多 ,因为 具体 实现 的 代码 在 其 他 类 中 。 


public static void main(String[] args) throws IOException ( 
boolean enableOutput = false; 
boolean outputToFile - true; 
String inputFolder = IqrMc. class. getClassLoader ( ) . getResource( " workload/planetlab "). 
getPath(); 
String outputFolder - "output"; 
String workload - "20110303"; // 负 载 数据 
String vmAllocationPolicy = "igr";  // 四 分 间距 分 配 策略 (Inter Quartile Range) 
String vmSelectionPolicy = "mc"; // 最 大 相关 系数 选择 策略 (Maximum Correlation) 
String parameter = "1.5"; //1ar 策略 中 的 安全 参数 


new PlanetLabRunner( 
enableOutput, 
outputToFile, 
inputFolder, 
outputFolder, 
workload, 
vmAllocationPolicy, 
vmSelectionPolicy, 
parameter); 

) 


如 果 运 行 不 了 ,出 现 错误 如 下 : 
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java. lang. NullPointerException 

at org. cloudbus. cloudsim. examples. power. planetlab. PlanetLabHelper. create 
CloudletListPlanetLab (PlanetLabHelper. java: 49) 

at org. cloudbus. cloudsim. examples. power. planetlab. PlanetLabRunner. init 
(PlanetLabRunner. java: 71) 

at org. cloudbus. cloudsim. examples. power. RunnerAbstract. < init > (RunnerAbstract. java: 95 ) 


at org. cloudbus. cloudsim. examples. power. planetlab. PlanetLabRunner. < init > 
(PlanetLabRunner. java: 55) 

at org. cloudbus. cloudsim. examples. power. planetlab. IqrMc. main(IqrMc. java: 42) 
The simulation has been terminated due to an unexpected error 


有 可 能 是 因为 负载 文件 workload/planetlab/20110303 的 绝对 路 径 中 有 空格 ,这 样 它 在 


读 取 路 径 时 会 把 空格 , 转 义 为 “%20”, 因 而 读 取 文 件 失败 。 解决 方法 是 : 把 String 
inputFolder = IqrMc. class. getClassLoader ( ). getResource ( " workload/planetlab "). 
getPath( ); 改 为 String inputFolder = IqrMc. class. getClassLoader ( ). getResource 
("workload/planetlab"). toURI() . getPath();, J} H. fE throws IOException 后 加 上 “， 
URISyntaxException" , Hl 7E Jl; throws IOException, URISyntaxException 即 可 。 


PlanetLabRunner 的 源 代码 通过 org. cloudbus. cloudsim. examples. power. Helper 类 


和 org. cloudbus. cloudsim. examples. power. planetlab. PlanetLabHelper 类 创建 了 代理 、 云 
任务 .虚拟 机 列表 主机 列表 。 而 数据 中 心 是 在 其 父 类 RunnerAbstract 中 创建 的 。 


public class PlanetLabRunner extends RunnerAbstract { 
public PlanetLabRunner( 
boolean enableOutput, 
boolean outputToFile, 
String inputFolder, 
String outputFolder, 
String workload, 
String vmAllocationPolicy, 
String vmSelectionPolicy, 
String parameter) ( 
super( 
enableOutput, 
outputToFile, 
inputFolder, 
outputFolder, 
workload, 
vmAllocationPolicy, 
vmSelectionPolicy, 
parameter); 
5 
@Override 
protected void init(String inputFolder) { 
try { 
CloudSim. init(1, Calendar. getInstance(), false) ; 
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broker = Helper.createBroker(); // 创 建 代理 
int brokerId = broker. getId(); 
cloudletList = PlanetLabHelper. createCloudletListPlanetLab(brokerId, inputFolder); 


// 创 建 云 任务 ,其 中 云 任 务 的 利用 率 是 读 取 负载 文件 的 
vmList = Helper.createVmList(brokerId, cloudletList.size()); 
// 创 建 虚拟 机 列表 
hostList = Helper. createHostList(PlanetLabConstants. NUMBER_OF_HOSTS) ; 
// 创 建 能 耗 主机 列表 
} catch (Exception e) { 
e. printStackTrace() ; 
Log. printLine("The simulation has been terminated due to an unexpected error"); 
Systen. exit(0); 


org. cloudbus. cloudsim. examples. power. RunnerAbstract 的 start ) 方 法 创建 数据 中 
心 。 并 且 定 义 了 仿真 的 启动 与 结束 。RunnerAbstract fE H y PARP S DA fT. init O (由 子 
类 PlanetLabRunner 具体 实现 ) 和 start() 方 法 。 


protected void start (String experimentName, String outputFolder, VmAllocationPolicy 
vmAllocationPolicy) ( 

System.out.println("Starting " * experimentName); 

try { 
PowerDatacenter datacenter = (PowerDatacenter) Helper. createDatacenter( 

"Datacenter", PowerDatacenter. class, hostList, vmAllocationPolicy) ; 
datacenter. setDisableMigrations( false) ; 
broker. submitVmList(vmList) ; 
broker. submitCloudletList(cloudletList) ; 
CloudSim. terminateSimulation(Constants. SIMULATION LIMIT); 
// 设 置 仿真 超时 时 间 , 超 时 则 结束 仿真 
double lastClock = CloudSim.startSimulation();  // 仿 真 总 时 间 
List< Cloudlet > newList = broker.getCloudletReceivedList(); 
Log.printLine("Received " + newList.size() + " cloudlets"); 
CloudSim. stopSimulation(); 
Helper.printResults(datacenter, vmList, lastClock, experimentName, 
Constants. OUTPUT_CSV, outputFolder); 

} catch (Exception e) { 
e. printStackTrace( ) ; 
Log. printLine("The simulation has been terminated due to an unexpected error"); 
System. exit(0); 


Log.printLine("Finished " + experimentName); 


创建 云 任务 由 org. cloudbus. cloudsim. examples. power. planetlab. PlanetLabHelper 
通过 读 取 CPU 利用 率 数据 ,构建 负载 动态 变化 的 云 任务 。 
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public static List < Cloudlet > createCloudletListPlanetLab(int brokerId, String inputFolderName) 
throws FileNotFoundException { 

List <Cloudlet > list = new ArrayList <Cloudlet >(); 

long fileSize = 300; 

long outputSize = 300; 

UtilizationModel utilizationModelNull = new UtilizationModelNull(); 

File inputFolder = new File(inputFolderName) ; 


File[] files = inputFolder.listFiles(); // 列 出 文件 夹 中 的 文件 
for (int i = 0; i< files. length; i++) { 111052 个 文件 ,1052 个 任务 
Cloudlet cloudlet = null; 
try { 
cloudlet = new Cloudlet(i, 
Constants. CLOUDLET_LENGTH, // 任 务 长 度 2500 x 24 x 60 x 60 
Constants.CLOUDLET PES, // 核 芯 数 1 
fileSize, // 文 件 大 小 
outputSize, // 输 出 文件 大 小 
new UtilizationModelPlanetLabInMemory( 
// 读 取 文 件 的 利用 率 模型 


files[i].getAbsolutePath(), 
Constants.SCHEDULING INTERVAL), 

// 间 隔 60 x 5 = 300 # 
utilizationModelNull, // 内 存 利用 率 模型 为 0 模型 
utilizationModelNull); // 带 宽 利 用 率 模型 为 0 模型 

} catch (Exception e) { 
e. printStackTrace(); 
Systen. exit(0); 


cloudlet. setUserId(brokerId) ; 
cloudlet. setVmId( i); 
list. add(cloudlet) ; 

} 


return list; 


org. cloudbus. cloudsim. UtilizationModelPlanetLabInMemory 是 接口 类 UtilizationModel 的 
-个 实现 。 实 现 UtilizationModel 的 接口 必须 实现 getUtilization ) 方 法 获取 利用 率 。 负 载 
文件 是 每 隔 5min 采样 一 个 点 , 共 24h.288 个 点 。 


public class UtilizationModelPlanetLabInMemory implements UtilizationModel { 
private double schedulingInterval; // 调 度 间 隔 ,这 里 就 是 5 分 钟 
private final double[] data = new double[289]; // 数 据 (5min x 288 = 24h) 
public UtilizationModelPlanetLabInMemory(String inputPath, double schedulingInterval) 
throws NumberFormatException, IOException ( 
setSchedulingInterval(schedulingInterval);  — // 设 置 调度 间隔 
// 读 取 文 件 的 数据 ,每 个 数据 占 一 行 . data 的 数 在 区 间 [0,1] 
BufferedReader input = new BufferedReader(new FileReader( inputPath) ); 
int n = data. length; 
for (inti a 0; 1n dd 
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data[i] = Integer. valueOf(input. readLine()) / 100.0; 
) 
data[n - 1] = data[n - 2]; 
input.close(); 
} 
@override 
public double getUtilization(double time) { 
if (time % getSchedulingInterval() == 0) { 
return data[ (int) time / (int) getSchedulingInterval()]; 
} // 能 整除 间隔 则 返回 已 知 的 数据 
int timel = (int) Math.floor(time / getSchedulingInterval()); 
int time2 - (int) Math.ceil(time / getSchedulingInterval()); 
double utilizationl = data[timel]; 
double utilization2 - data[time2]; 
double delta = (utilization2 - utilizationl)/((time2 - timel) * getSchedulingInterval()); 
double utilization = utilizationl + delta * (time — timel * getSchedulingInterval()); 
// 不 能 整除 则 利用 相 邻 数据 线性 拟 合 


return utilization; 


Helper 类 创建 了 1052 个 云 任 务 ( 因 为 有 1052 个 负载 文件 ) ,1052 个 虚拟 机 ,800 +E 
机 。 虚 拟 机 有 四 种 类 型 ,不 同类 型 对 应 不 同 的 MIPS 和 RAM, 主 机 有 两 种 类 型 ,对 应 不 同 的 
MIPS,RAM 和 能 耗 一 CPU 利用 率 模型 。 见 org. cloudbus. cloudsim. examples. power. 


Constants, 


public final static int VM TYPES = 4; 
public final static int[] VM_MIPS = {2500, 2000, 1000, 500}; 
public final static int[] VM_PES = {1, 1, 1, 1}; 

public final static int[] VM RAM (870, 1740, 1740, 613); 


public final static int VM BW = 100000; //100Mb/s 
public final static int VM SIZE - 2500; //2.5GB 
public final static int HOST TYPES = 2; 

public final static int[] HOST MIPS = (1860, 2660}; 

public final static int[] HOST PES = (2, 2}; 

public final static int[] HOST RAM = {4096, 4096}; 

public final static int HOST_BW = 1000000; //AGb/s 
public final static int HOST STORAGE - 1000000; //1GB 


public final static PowerModel[] HOST POWER - ( 
new PowerModelSpecPowerHpProLiantM1110G4Xeon3040(), 
new PowerModelSpecPowerHpProLiantM1110G5Xeon3075( ) 
l 


其 中 能 耗 一 CPU 利用 率 模型 定义 在 org. cloudbus. cloudsim. power. models 包 内 , 基 类 
PowerModel 是 一 个 接口 类 ,下 面 以 PowerModelSpecPowerHpProLiantMI110G4Xeon3040() 4 
例 介绍 。 

PowerModelSpecPower 类 是 PowerModelSpecPowerHpProLiantMI110G3PentiumD930 的 
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父 类 ,该 类 需要 知道 CPU 利用 率 在 0%、10%、…、100% 情 况 下 的 能 耗 值 ,这 些 能 耗 值 由 子 
类 来 具体 实现 。 而 其 他 情况 下 ,采用 线性 拟 合 方法 计算 。 


public abstract class PowerModelSpecPower implements PowerModel { 
@Override 
public double getPower(double utilization) throws IllegalArgumentException { 
if (utilization <0 | | utilization» 1) ( 
throw new IllegalArgumentException("Utilization value must be between 0 and 1"); 
D 
if (utilization % 0.1 == 0) { 
return getPowerData((int) (utilization * 10)); 
D // 能 整除 的 直接 使 用 已 知 数据 
int utilizationl (int) Math.floor(utilization * 10); 
int utilization2 - (int) Math.ceil(utilization * 10); 
double powerl = getPowerData(utilizationl); 
double power2 - getPowerData(utilization2); 
double delta = (power2 — powerl) / 10; 
double power = powerl + delta * (utilization — (double) utilizationl / 10) * 100; 
// 不 能 整除 的 采用 线性 拟 合 


return power; 


i 
protected abstract double getPowerData(int index) ; 


} 
public class PowerModelSpecPowerHpProLiantMl110G3PentiumD930 extends PowerModelSpecPower { 
private final double[] power = { 86, 89.4, 92.6, 96, 99.5, 102, 106, 108, 112, 114, 117}; 
// 利 用 率 在 0% , 10% , = , 100% FINGER 
@Override 
protected double getPowerData(int index) { 
return power[ index]; 


n 


org. cloudbus. cloudsim, power. PowerVmAllocationPolicyMigrationInterQuartileRange 
类 继承 了 PowerVmAllocationPolicyMigrationAbstract. 继承 该 类 关键 在 于 实现 
isHostOverUtilized() 方 法 ,CloudSim 中 的 所 有 PowerVmAllocationPolicyMigration 具体 
实现 , 最 关键 不 同 就 是 isHostOverUtilized() 方法 的 不 同 。 其 他 主要 方法 在 
PowerVmAllocationPolicyMigrationAbstract 类 中 已 定义 好 。 


public class PowerVmAllocationPolicyMigrationInterQuartileRange extends 
PowerVmAllocationPolicyMigrationAbstract { 
@Override 
protected boolean isHostOverUtilized(PowerHost host) { 
PowerHostUtilizationHistory host = (PowerHostUtilizationHistory) host; 
double upperThreshold = 0; 
try { // upperThreshold Fi) 3 #9 Bd fft 
upperThreshold = 1 — getSafetyParameter() * getHostUtilizationIgr( host); 
// SafetyParameter 就 是 IarMc 中 的 安全 参数 1.5 
// getHostUtilizationIqr() 获 取 主 机 历史 利用 率 的 四 位 分 距 
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} catch (IllegalArgumentException e) { 
return getFallbackVmAllocationPolicy(). isHostOverUtilized(host); 
// 如 果 计 算 四 位 分 距 失败 , 则 调用 后 备 的 分 配 策略 ,默认 为 静态 
// 阅 值 分 配 策略 PowerVmAllocationPolicyMigrationStaticThreshold 


} 
addHistoryEntry(host, upperThreshold); —— // 保 存 数 据 作为 历史 
double totalRequestedMips = 0; // 总 请 求 计算 量 


for (Vm vm : host.getVmList()) { 
totalRequestedMips += vm. getCurrentRequestedTotalMips() ; 
} 
double utilization = totalRequestedMips / host. getTotalMips( ) ; 
// 利 用 率 = 总 请 求 计算 量 /总 计算 能 力 
return utilization > upperThreshold; 
$ 


下 面 要 解释 的 org. cloudbus. cloudsim. power. PowerVmAllocationPolicyMigrationAbstract 
是 整个 虚拟 机 调度 的 关键 。 该 类 定义 了 optimizeAllocation ) 方 法 ,在 执行 任务 过 程 中 ,把 
高 负载 的 主机 中 的 虚拟 机 迁移 到 低 负载 的 主机 。 要 实现 自己 的 调度 算法 ,就 是 要 重 写 
optimizeAllocation() 方 法 ,PowerDatacenter 在 每 隔 一 段 时 间 更 新 任务 进度 时 会 调用 该 方 
法 ,避免 主机 过 载 。 


a 


public abstract class PowerVmAllocationPolicyMigrationAbstract extends 

PowerVmAllocationPolicyAbstract { 

@Override 

public List <Map<String, Object >> optimizeAllocation(List <? extends Vm» vmList) { 
ExecutionTimeMeasurer. start("optimizeAllocationTotal") ; 
// 记 录 优 化 分 配 的 开始 时 间 
ExecutionTimeMeasurer. start("optimizeAllocationHostSelection") ; 
// 记 录 选 择 过 载 主机 的 开始 时 间 
List < PowerHostUtilizationHistory> overUtilizedHosts = getOverUtilizedHosts(); 
// 获 取 过 载 的 主机 ,由 子 类 isHostOverUtilized() 方 法 判断 是 否 过 载 
getExecutionTimeHistoryHostSelection().add( 
ExecutionTimeMeasurer. end("optimizeAllocationHostSelection")); 
// 保 存 选 择 过 载 主机 所 用 时 间 
printOverUtilizedHosts(overUtilizedHosts);// 打 印 过 载 主机 
saveAllocation(); // 保 存 原来 的 虚拟 机 分 配 情况 
ExecutionTimeMeasurer. start("optimizeAllocationVmSelection") ; 
// 记 录 选 择 要 迁移 的 虚拟 机 的 开始 时 间 
List <? extends Vm> vmsToMigrate = 
getVmsToMigrateFromHosts(overUtilizedHosts); 

// 从 过 载 的 主机 选择 迁移 虚拟 机 ,调用 VnSelectionPolicy, 
// 本 例 即 为 PowerVnSelectionPolicyMaximumCorrelation 
getExecutionTimeHistoryVmSelection().add(ExecutionTimeMeasurer. end( 
"optimizeAllocationVmSelection")); 
// 保 存 选择 虚拟 机 所 用 时 间 

Log. printLine("Reallocation of VMs from the over 一 utilized hosts:"); 
ExecutionTimeMeasurer.start("optimizeAllocationVmReallocation"); 


// 记 录 虚 拟 机 再 分 配 的 开始 时 间 
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List<Map < String, Object >> migrationMap = getNewVmPlacement(vmsToMigrate, new 
HashSet < Host »(overUtilizedHosts)); 
// 为 虚拟 机 寻找 重新 分 配 的 主机 
getExecutionTimeHistoryVmReallocation().add( 
ExecutionTimeMeasurer. end("optimizeAllocationVmReallocation") ) ; 
// 保 存 虚拟 机 再 分 配 所 用 时 间 
Log. printLine(); 
migrationMap. addAll( 
getMigrationMapFromUnderUtilizedHosts(overUtilizedHosts)); 
// 从 低 载 的 主机 寻找 迁移 虚拟 机 一 新 主机 映射 


restoreAllocation(); // 恢 复原 来 的 虚拟 机 分 配 情况 ,还 未 迁移 
getExecutionTimeHistoryTotal().add(ExecutionTimeMeasurer. end( 
"optimizeAllocationTotal")); // 保 存 优化 分 配 的 时 间 

return migrationMap; // 返 回迁 移 的 虚拟 机 一 新 主机 映射 列表 


} 
protected List «Map «String, Object >> getNewVmPlacement(List <? extends Vm» vmsToMigrate, Set 
<? extends Host > excludedHosts) { 
List < Map < String, Object >> migrationMap = new LinkedList <Map< String, Object >>(); 
// 虚 拟 机 一 新 主机 映射 列表 
PowerVmList. sortBYCpuUtilization(vmsToMigrate); // 按 利用 率 升序 排列 
for (Vm vm : vmsToMigrate) { // 利 用 率 低 的 虚拟 机 优先 
PowerHost allocatedHost = findHostForVm(vm, excludedHosts); 
// 给 虚拟 机 寻找 主机 ,excludedHosts 是 给 vm 迁移 不 用 考虑 的 主机 
if (allocatedHost != null) { 
allocatedHost. vmCreate( vm) ; // 在 主机 中 创建 虚拟 机 
Log.printLine("VM #" + vm.getId() + " allocated to host #" + 
allocatedHost. getId()); 
Map< String, Object» migrate = new HashMap< String, Object >(); 
migrate. put ("vm", vm); 
migrate.put("host", allocatedHost) ; 
migrationMap. add(migrate) ; // 把 虚拟 机 一 新 主机 映射 添加 到 列表 
} 
) 
return migrationMap; 
) 


protected List < Map < String, Object >> getMigrationMapFromUnderUtilizedHosts( 
List < PowerHostUtilizationHistory> overUtilizedHosts) ( 
List <Map< String, Object >> migrationMap = new LinkedList 


«Map « String, Object >>(); // 虚 拟 机 一 新 主机 映射 列表 
List < PowerHost > switchedOffHosts = getSwitchedOffHosts(); 
// 关 闭 的 主机 


// 为 了 寻找 低 载 主机 , 过载 的 主机 、 关 闭 的 主机 、 已 确定 为 迁移 目标 的 主机 是 不 考虑 的 

Set < PowerHost > excludedHostsForFindingUnderUtilizedHost = new HashSet < PowerHost »(); 
excludedHostsForFindingUnderUtilizedHost. addAll(overUtilizedHosts); 
excludedHostsForFindingUnderUtilizedHost. addAll(switchedOffHosts); 
excludedHostsForFindingUnderUtilizedHost. addAll( 
extractHostListFromMigrationMap(migrationMap)); 


// 为 了 给 虚拟 机 寻找 新 的 主机 ,过 载 的 主机 和 关闭 的 主机 是 不 考虑 的 
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Set < PowerHost > excludedHostsForFindingNewVmPlacement = new HashSet < PowerHost >() ; 
excludedHostsForF indingNewVmPlacement. addAll(overUtilizedHosts); 
excludedHostsForF indingNewVmPlacement. addAll(switchedOffHosts); 
int numberOfHosts = getHostList().size(); 
while (true) ( 
if (numberOfHosts == excludedHostsForFindingUnderUtilizedHost.size()) { 
break; // 如 果 不 考虑 的 主机 数 等 于 总 主机 数 ,跳出 
} 
PowerHost underUtilizedHost = 
getUnderUtilizedHost (excludedHostsForFindingUnderUtilizedHost); 
// 排 除 不 考虑 的 主机 , 找 低 载 的 一 个 主机 
证 (underUtilizedHost == null) { // 找 不 到 ,跳出 
break; 
Log.printLine("Under- utilized host: host #" + underUtilizedHost.getId() + "\n"); 
// 找 到 低 载 主机 也 不 作 考虑 
excludedHostsForFindingUnderUtilizedHost. add(underUtilizedHost); 
excludedHostsForFindingNewVmPlacement. add(underUtilizedHost); 
List <? extends Vm» vmsToMigrateFromUnderUtilizedHost = 
getVmsToMigrateFromUnderUtilizedHost(underUtilizedHost); 


// 从 低 载 的 主机 找 要 迁移 的 主机 
if (vmsToMigrateFromUnderUtilizedHost. isEmpty()) { 
continue; // 如 果 该 低 载 的 主机 中 不 存在 将 要 迁移 的 虚拟 


// 机 ,继续 找 下 一 个 主机 

} 

Log. print("Reallocation of VMs from the under — utilized host: "); 

if (!Log. isDisabled()) { 

for (Vm vm : vmsToMigrateFromUnderUtilizedHost) { 
Log.print(vm.getId() * ""); 
) 

} 

Log. printLine(); 

// 给 低 载 主 机 要 迁移 的 虚拟 机 寻找 新 的 主机 

List <Map< String, Object >> newVmPlacement = 

getNewVmPlacementFromUnderUtilizedHost( 
vmsToMigrateFromUnderUtilizedHost, 
excludedHostsForF indingNewVmPlacement) ; 

excludedHostsForF indingUnderUtilizedHost. addAll( 

extractHostListFromMigrat ionMap(newVmPlacement) ) ; 

// 新 找到 的 主机 接 下 来 不 作 考虑 了 

migrationMap. addAl1(newVmPlacement) ; // 添 加 到 映射 列表 中 

Log. printLine(); 

} 
return migrationMap; 


) 
protected List < Map < String, Object >> getNew/nPlacementFronUnderUtilizedHost( 


List <? extends Vn» vmsToMigrate, Set <? extends Host > excludedHosts) { 
List <Map< String, Object >> migrationMap = new LinkedList 
« Map « String, Object >>(); 
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PowerVnList. sortByCpuUtilization(vmsToMigrate); // 按 利用 率 升 序 排列 
for (Vm vm : vmsToMigrate) { 


PowerHost allocatedHost = findHostForVm(vm, excludedHosts); 


// 给 虚拟 机 寻找 主机 
if (allocatedHost != null) { 
allocatedHost. vmCreate(vm) ; // 在 主机 中 创建 虚拟 机 


Log. printLine("VM #" + vm.getId() + " allocated to host #" + allocatedHost. getId()); 
Map < String, Object» migrate = new HashMap < String, Object >(); 
migrate. put ("vm", vm); 
migrate. put("host", allocatedHost); 
migrationMap. add(migrate) ; // 添 加 到 映射 列表 
} else { // 找 不 到 能 迁移 的 主机 

Log. printLine("Not all VMs can be reallocated from the host, reallocation cancelled"); 

for (Map < String, Object» map : migrationMap) { 
((Host) map. get("host")). vmDestroy((Vm) map. get("vn")); 


) // 删 除 主机 中 的 虚拟 机 
nigrationMap.clear(); // 清 空 映 射 列表 
break; 
) 
} 
return migrationMap; 


} 


protected List <? extends Vm> getVmsToMigrateFromUnderUtilizedHost( 
PowerHost host) { 
List« Vm» vmsToMigrate = new LinkedList < Vm>(); 


for (Vm vm : host. getVmList()) { // 遍 历 主机 中 的 所 有 虚拟 机 
if (!vm. isInMigration()) ( // 如 果 虚 拟 机 不 是 正在 迁移 中 
vmsToMigrate. add(vm) ; // 则 选 为 将 要 迁移 的 虚拟 机 


} 
} 
return vmsToMigrate; 
h 


public PowerHost findHostForVm(Vm vm, Set <? extends Host > excludedHosts) { 
double minPower - Double.MAX VALUE; 
PowerHost allocatedHost - null; 
for (PowerHost host : this.« PowerHost > getHostList()) { 
if (excludedHosts.contains(host)) { // 跳 过 不 考虑 的 主机 
continue; 
} 
if (host. isSuitableForVm(vm)) { 
// 判 断 主机 是 否 在 计算 能 力 、 内 存 、 带 宽 方 面 能 满足 虚拟 机 
if (getUtilizationOfCpuMips(host) != 0 && 
isHostOverUtilizedAfterAllocation(host, vm)) ( 
// 如 果 主 机 利用 率 非 零 且 分 配 后 没有 过 载 则 再 找 
continue; 
} 
try { 
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double powerAfterAllocation = getPowerAfterAllocation(host, vm); 


// 计 算 分 配 后 的 能 耗 
if (powerAfterAllocation != -1) { 
double powerDiff = powerAfterAllocation — host.getPower(); 
// 分 配 前 后 的 能 耗 差 
证 (powerDiff < minPower) { // 寻 找 能 耗 差 最 小 的 主机 


minPower = powerDiff; 
allocatedHost = host; 
} 
) 
) catch (Exception e) ( 
} 
} 
D 


return allocatedHost; 


虚拟 机 策略 org. cloudbus. cloudsim. power. PowerVmSelectionPolicy MaximumCorrelation 


是 为 了 找 出 主机 中 负载 复 相关 性 。 


public class PowerVmSelectionPolicyMaximumCorrelation extends PowerVmSelectionPolicy { 
public Vm getVmToMigrate(final PowerHost host) ( 
List < PowerVm> migratableVms = getMigratableVms(host); 
// 主 机 中 可 迁移 的 虚拟 机 
if (migratableVms. isEmpty()) ( 
return null; 
} 
List <Double> metrics = null; 
try { 
// 指 标 是 每 个 虚拟 机 的 利用 率 历史 与 其 他 虚拟 机 利用 率 历史 的 复 相关 系数 
metrics = getCorrelationCoefficients(getUtilizationMatrix(migratableVms)); 
) catch (IllegalArgumentException e) { 
return getFallbackPolicy().getVmToMigrate(host); 
// 失 败 则 调用 回 退 选择 策略 返回 要 迁移 的 虚拟 机 
l 


double maxMetric - Double.MIN VALUE; 
int maxIndex - 0; 
for (inti = 0; i< metrics. size(); i++) { 
double metric = metrics.get(i); 


if (metric maxMetric) ( // 寻 找 复 相关 系数 最 大 的 虚拟 机 
maxMetric = metric; 
maxIndex - i; 


} 
} 
return migratableVms. get (maxIndex) ; 


} 


protected double[ ][] getUtilizationMatrix(final List < PowerVm> vmList) { 
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intn = vmList.size(); // 虚 拟 机 数 
int m = getMinUtilizationHistorySize(vmList); // 最 小 的 利用 率 历史 长 度 
double[][] utilization = new double[n][m]; //nX n f/f Fl SEA De 


for (int i = 0; i<n; i++) { 
List <Double> vmUtilization = vmList.get(i).getUtilizationHistory(); 
for (int j = 0; j < vnUtilization.size(); j++) { 
utilization[i][j] = vmUtilization. get(j); 
/ 
D 
return utilization; 


$ 


// 由 历史 利用 率 矩 阵 计算 复 相 关系 数 , 复 相关 系数 是 多 元 回归 分 析 中 的 概念 ,用 来 
// 描 述 一 个 变量 与 其 他 多 个 变量 之 间 线性 相关 程度 
protected List < Double» getCorrelationCoefficients(final double[][] data) { 
int n = data. length; 
int m = data[0]. length; 
List < Double > correlationCoefficients = new LinkedList < Double»(); 
for (int i = 0; i«n; i++) { 


double[][] x = new double[n - 1][m]; / [x 是 除去 data[i] 一 行 数据 的 
intk = 0; //(n- 1) X n fri e 
for (int j = 0; j« n; j++) ( 

it (J= i) 

x[k++] = data[j]; 

} 
) 
//xT 是 x 的 转 置 ,为 了 符合 回归 的 格式 


double[][] xT = new Array2DRowRealMatrix(x).transpose().getData(); 
//RSquare 就 是 复 相关 系数 的 定义 ,用 x 来 多 元 线性 回归 datali] 
correlationCoefficients. add(MathUtil. createLinearRegression(xT, 
data[ i]).calculateRSquared()); 
} 


return correlationCoefficients; 


} 


运行 结果 : 由 于 运行 结果 的 输出 非常 多 ,过 程 的 输出 这 里 就 省 略 了 ,只 给 出 结果 的 输 
出 。 这 些 结果 是 由 org. cloudbus. cloudsim. examples. power. Helper 类 的 printResults() 方 
法 输出 的 ,具体 如 表 4-1 所 示 。 


表 4-1 采用 printResults() 方 法 输出 的 结果 


Experiment name 实验 名 称 

Number of hosts 主机 数 

Number of VMs 虚拟 机 数 

Total simulation time 总 仿真 时 间 ( 单 位 : s) 

Energy consumption 总 能 耗 (单位 : kW h) 

Number of VM migrations 虚拟 机 迁移 数 

SLA SLA perf degradation due to migration * SLA time per active host 
SLA perf degradation due to migration | 由 于 迁移 导致 SLA 性 能 下 降 比 例 

SLA time per active host 活动 主机 的 违反 SLA 时 间 比 例 
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续 表 


Overall SLA violation 


整体 SLA 违反 率 


Average SLA violation 


平均 SLA 违反 率 


Number of host shutdowns 


主机 关闭 的 台 次 数 (主机 可 能 开 了 又 关 , 关 了 又 开 ) 


Mean time before a host shutdown 


主机 平均 开启 时 间 


StDev time before a host shutdown 主机 开启 时 间 的 标准 差 
Execution time-VM selection mean 虚拟 机 选择 平均 时 间 
Execution time-VM selection stDev 虚拟 机 选择 时 间 标 准 差 
Execution time-host selection mean 主机 选择 平均 时 间 
Execution time-host selection stDev 主机 选择 时 间 标准 差 
Execution time-VM reallocation mean ”| 虚拟 机 再 分 配 平 均 时 间 
Execution time-VM reallocation stDev | 虚拟 机 再 分 配 时 间 标 准 差 


Execution time-total mean 


PowerVmAllocationPolicyMigration 平均 分 配 时 间 


Execution time-total stDev 


PowerVmAllocationPolicyMigration 分 配 时 间 的 标准 差 


ik: 上 面 统计 中 使 用 的 服务 等 级 协议 (SLA) 是 满足 每 个 时 刻 的 负载 。 


Experiment name: 20110303 igr mc 1.5 


Number of hosts: 800 
Number of VMs: 1052 


Total simulation time: 86400.00 sec 


Energy consumption: 116.96 kWh 


Number of VM migrations: 24223 
SLA: 0.00604 % 


SLA perf degradation due to migration: 0.12% 


SLA time per active host: 5.25% 


Overall SLA violation: 0.16% 
Average SLA violation: 10.41% 
Number of host shutdowns: 1679 


Mean time before a host shutdown: 2015.66 sec 
StDev time before a host shutdown: 3606.72 sec 
Mean time before a VM migration: 19.18 sec 

StDev time before a VM migration: 8.15 sec 
Execution time — VM selection mean: 0.23915 sec 
Execution time — VM selection stDev: 0.13230 sec 


Execution time — host selection mean: 0.01498 sec 
Execution time — host selection stDev: 0.00952 sec 
Execution time — VM reallocation mean: 0.14410 sec 
Execution time — VM reallocation stDev: 0.04731 sec 
Execution time — total mean: 0.50203 sec 

Execution time — total stDev: 0.24563 sec 


4.5 MultiRECloudSim 


4.5.1 MultiRECloudSim 体系 结构 和 原理 


CloudSim 在 众多 模拟 仿真 工具 中 表现 突出 ,其 优良 特性 方便 用 户 进行 比较 贴 合 实际 云 


计算 环境 的 资源 调度 和 云 服 务 的 实验 ,可 以 量化 对 应 的 调度 和 分 配 策略 的 性 能 和 给 基础 设 
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施 带 来 的 能 耗 。 尽 管 如 此 , 现 有 CloudSim 仍然 存在 一 些 局 限 性 ,比如 在 多 资源 任务 的 能 耗 
模拟 仿真 和 负载 文件 利用 率 数据 利用 不 充分 等 短 板 。 因 此 ,我 们 提出 了 MutiRECloudSim? , 
MultiRECloudSim 是 基于 Cloudsim 扩展 的 多 资源 能 耗 仿真 工具 , 它 实 现 了 面向 CPU, A 
ff WERE TO ,带宽 等 多 资源 的 能 耗 仿真 功能 ,基于 MultiRECloudSim 可 以 实现 面向 多 资源 
能 耗 仿真 的 算法 设计 与 实验 。 由 于 MutiRECloudSim 只 是 将 CloudSim 进行 功能 上 的 扩 
展 , 因 此 其 体系 结构 基本 上 是 跟 4. 1 节 中 描述 的 CloudSim 体系 结构 一 样 ,如 图 4-17 Bros 。 


用 户 代码 
仿真 规格 云 场景 用 户 请 求 应 用 配置 
调度 策略 用 户 或 数据 中 心 代理 


MutiRECloudSim 


用 户 接口 结构 基于 进度 的 多 资源 任务 单元 扩展 虚拟 机 

虚拟 机 服务 基于 进度 的 多 资源 任务 单元 执行 | | 扩展 虚拟 机 管理 
云 服务 虚拟 机 分 配 || CPU 分 配 内 存 分 配 || 存储 空间 分 配 || 带宽 分 配 
云 资源 事件 处 理 | | 扩展 数据 中 心 || 传感器 云 协调 器 


网 络 [Ir 消息 延迟 处 理 


图 4-17 MultiRECloudSim 体系 结构 


在 MultiRECloudSim 中 有 很 多 类 ,我 们 可 以 将 它们 分 为 三 类 。 首 先是 基本 要 素 , 包 括 
SimDatacenter, SimDatacenterBroker, SimPowerHost, SimPowerVm, SimCloudlet, UtilizationModel 
及 其 子 类 。 其 次 是 决定 各 种 分 配 调 度 算法 的 策略 类 , 如 CloudletAssignmentPolicy， 
SimCloudletSchedulerDynamicWorkload。 最 后 一 个 是 分 配 和 记录 资源 的 资源 管理 器 类 , 例 
如 SimRamProvisioner. CloudletIoAllocator。 下 面 将 详细 介绍 MultiRECloudSim 为 完善 
CloudSim 所 添加 的 内 容 , 并 解释 它们 的 工作 原理 。 

D 用 户 接口 的 任务 单元 变 成 基于 进度 的 多 资源 任务 单元 。SimCloudlet 是 Cloudlet 的 
扩展 类 ,增加 对 IO 资源 的 支持 。SimCloudlet 的 属性 mips, ram, io, bw 分 别 表示 任务 对 
CPU 内存、IO、 带 宽 的 需求 。 其 中 mips 可 以 是 固定 值 ,也 可 以 是 动态 变化 的 ,这 与 
CloudSim 本 来 的 实现 一 致 。 这 四 种 资源 都 有 各 自 的 利用 率 模 型 UtilizationModel, 表 示 任 
务 执行 过 程 中 ,对 该 资源 的 利用 率 变化 模型 。 如 果 是 静态 的 , 则 用 UtilizationModelFull 百 
分 百 利用 率 模型 ,动态 的 话 , 则 用 读 取 文本 文件 的 利用 率 模 型 。 目 前 只 有 CPU 同时 支持 静 
态 动 态 负载 ,其 他 资源 只 支持 静态 。 本 模型 基于 以 下 的 假设 : 
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CD 为 了 简化 模型 ,ram、io、bw 设 定 为 固定 值 , 即 认为 任务 对 这 三 种 资源 的 需求 是 固定 
的 ,任务 一 旦 开始 执行 ,就 会 一 直 占用 那么 多 的 资源 。 

COD 对 于 新 增 的 IO 资源 ,我 们 将 IO 读 写 抽象 地 视 作 一 种 可 分 配 的 资源 。 每 秒 的 TO 率 
等 于 已 经 分 配 的 IO 资源 /主机 总 的 IO 资源 。 其 他 资源 的 情况 同样 如 此 。 

(3) 内 存 、IO、 带 宽 这 三 种 资源 ,我 们 认为 必须 满足 任务 对 它们 的 需求 ,任务 才 可 以 执 
行 。 而 CPU 资源 ,不 满足 任务 依然 可 以 执行 ,只 不 过 CPU 资源 分 配 得 少 ,执行 得 慢 一 点 。 
当 任 务 资源 需求 不 被 满足 , 则 进入 等 待 队列 ,满足 则 开始 执行 。 由 于 CPU 资源 可 以 确保 满 
足 , 也 可 以 不 被 满足 ,因而 可 以 设计 出 不 同 需 求 的 CPU 资源 分 配 算 法 。 

另外 ,我 们 对 CloudSim 原来 动态 Mips 需求 的 实现 也 作 了 修改 。 原 来 虚拟 机 当前 需求 
的 Mips 等 于 当前 正在 执行 的 任务 需求 的 总 利用 率 X 虚 拟 机 的 总 Mips 值 ,现在 我 们 修改 为 
虚拟 机 当前 需求 的 Mips 等 于 当前 正在 执行 的 任务 需求 的 总 利用 率 X 任 务 的 Mips 值 。 这 
样 的 改变 可 以 更 灵活 地 变化 任务 的 Mips, 便 于 模拟 实验 ,而 且 更 加 符合 实际 。 

基于 进度 的 多 资源 云 任务 是 多 资源 云 任务 的 进一步 扩展 ,用 SimProgressCloudlet 表 
示 。 为 了 解释 清楚 基于 进度 的 多 资源 云 任 务 的 设计 目的 ,得 从 CloudSim 的 利用 率 模型 
UtilizationModel 说 起 。 接 口 类 UtilizationModel 的 关键 方法 是 getUtilization (double 
time), time 是 CloudSim 的 仿真 时 间 。 子 类 UtilizationModelPlanetLabInMemory 是 读 取 
负载 文件 来 实现 动态 利用 率 变化 的 具体 实现 类 。 

UtilizationModelPlanetLabInMemory 规定 最 多 289 个 利用 率 点 (5 分 钟 X 288 — 24 小 
时 ) ,点 与 点 之 间 确 定 一 个 时 间 间 隔 schedulingInterval, 比 如 300 秒 ,那么 这 289 个 点 描述 的 
负载 时 间 范 围 是 (289 一 1) X schedulingInterval = 288X300 秒 二 24 小 时 。 受 其 设计 的 假设 
所 限 ，CloudSim 能 耗 仿真 的 假设 是 只 有 一 个 任务 运行 在 一 个 虚拟 机 上 , 见 
CloudletSchedulerDynamicWorkload 注释 assuming that there is just one cloudlet which is 
working as an online seruice 。 因 此 ,基于 时 间 利 用 率 模型 ,在 动态 负载 方面 存在 明显 的 局 
限 性 : 


1 2 3 E E 289 


QD 数据 利用 不 充分 。 任 务 是 无 法 暂停 的 。 如 果 任 务 随机 在 某 个 时 刻 发 生 和 暂停 ,那么 暂 
停 这 段 时 间 的 负载 数据 就 没有 被 利用 上 。 任 务 如 果 不 是 在 最 开始 就 启动 ,并 在 指定 时 间 结 
束 ,那么 数据 也 是 不 能 被 充分 利用 的 ,而 这 个 条 件 是 苛刻 的 ,难以 保证 的 。 

© 利用 率 预期 不 符 。 我 们 需要 明确 知道 任务 的 执行 时 间 , 包 括 起 始 时 间 、 结 束 时 间 , 这 
样 才能 知道 负载 数据 哪 一 部 分 数据 被 利用 上 ,在 多 任务 调度 中 我 们 几乎 不 可 能 办 到 。 如 果 
任务 暂停 ,那么 利用 率 变 化 会 与 我 们 的 预期 大 大 不 同 。 

基于 进度 的 利用 率 模型 的 计算 方法 ,下 面 举例 说 明 。 比 如 负载 数据 有 11 个 点 ,那么 第 
一 个 点 对 应 进度 为 0% 的 利用 率 ,第 二 个 点 对 应 进度 为 10% 的 利用 率 ,如 此 类 推 ,最 后 一 个 
点 对 应 进度 100% 的 利用 率 。 倘 车 任务 进度 刚好 是 50% ,那么 读 取 第 6 个 点 的 利用 率 。 如 
果 任 务 进度 是 66% ,那么 利用 率 为 u + “ST (66 一 60) «us sus 分 别 是 第 七 ,第 八 个 点 对 应 


的 利用 率 。 即 对 于 不 是 刚好 给 出 的 利用 率 的 点 ,通过 最 近 两 个 利用 率 点 的 线性 拟 合 。 
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1 2 3 4 5 6 7 8 9 10 11 


基于 进度 的 多 资源 云 任务 使 用 基于 进度 的 利用 率 模型 ,能 充分 利用 负载 数据 ,不 管 任务 
的 长 度 多 少 ,不 管 任务 什么 时 候 启 动 或 结束 ,还 能 支持 任务 暂停 。SimProgressCloudlet 中 
的 cloudletFinishedSoFar 属性 记录 任务 至 今 完成 的 长 度 ,方法 getProgress() 获 得 任务 完成 
的 百分比 进度 。 相 应 的 利用 率 模 型 Utilization-ProgressModelByFile 使 用 方法 
getUtilization double progress) 根 据 任务 的 完成 百分比 返回 需求 利用 率 。 要 进行 基于 进度 
的 云 任务 仿真 , 需要 配合 Progress 的 相关 类 ,包括 : SimProgressCloudlet、 
UtilizationProgressModelByFile, SimProgress-CloudletSchedulerDynamicWorkload 或 Sim- 
ProgressCloudletSchedulerDynamic-WorkloadReservation 。 

2) 任务 单元 属性 被 改变 之 后 ,需要 新 的 相应 的 任务 分 配 策略 来 为 这 些 任务 实现 资源 分 
配 。 本 文 的 任务 分 配 策略 都 是 通过 继承 抽象 类 CloudletAssignmentPolicy 实现 具体 的 分 配 
策略 。 比 如 顺序 分 配 算法 CloudletAssignmentPolicySimple 和 MultiRECloudSim 特有 的 主 
资源 负载 均衡 算法 CloudletAssignmentPolicyBalance。 主 资源 负 均 衡 分 配 算法 的 基本 思想 
是 : 各 种 资源 分 别 给 定 一 个 标准 值 , 计 算 任 务 对 各 种 资源 的 需求 标准 值 ( 相 当 于 无 量 纲 化 各 
资源 需求 ) ,标准 值 最 大 的 那 种 资源 视 为 该 任务 的 主 资源 。 然 后 将 任务 指派 给 当前 主 资源 标 
准 负载 最 小 的 虚拟 机 。 被 指派 的 虚拟 机 每 种 资源 标准 负载 相应 增加 由 该 任务 带 来 的 任务 标 
准 负载 。 当 且 仅 当 一 个 任务 执行 完毕 ,虚拟 机 的 资源 标准 负载 减 去 该 任务 的 部 分 。 

3) 多 任务 资源 调度 主要 由 SimCloudletSchedulerDynamic Workload 实现 ,最 主要 的 功 
能 是 任务 提交 、 任 务 队 列 、 任 务 资 源 重 分 配 和 任务 资源 分 配器 。 

任务 提交 。 任 务 指派 到 虚拟 机 ,任务 能 否 启 动 得 看 资源 是 否 足够 。 对 于 非 预 留 模式 , 检 
查 内 存 、IO ,带宽 是 否 足 够 ,足够 任务 则 启动 。CPU 资源 后 面 每 一 轮 资源 重 分 配 时 会 分 配 。 

任务 队列 。 如 任务 启动 资源 不 足 , 则 进行 等 待 队列 ,否则 进入 任务 执行 队列 。 这 里 的 队 
列 只 是 指 普通 的 列表 List, 不 是 数据 结构 中 的 队列 。 

任务 资源 重 分 配 。 每 一 轮 ,CPU 内存.IO、 带 宽 资 源 都 会 重新 由 主机 分 配给 虚拟 机 ,再 
由 虚拟 机 分 配给 任务 。 

任务 资源 分 配器 。 为 了 方便 对 任务 的 资源 管理 ,我 们 设计 了 任务 资源 器 一 一 Allocator 
类 。 任 务 资源 分 配器 是 虚拟 机 的 SimCloudletSchedulerDynamicWorkload 类 用 来 给 任务 分 
配 \ 管 理 、 回 收 资源 的 。 下 面 将 详细 介绍 任务 资源 分 配器 。 

任务 资源 分 配器 按 资源 类 型 不 同 分 为 CPU, 内 存 、IO、 带 宽 分 配器 : 
CloudletCpuAllocator, CloudletRamAllocator, CloudletIoAllocator, CloudletBw-Allocator。 这 四 
个 类 是 抽象 类 ,具体 的 实现 由 各 自 简单 类 实现 基本 的 资源 分 配 。 这 些 任 务 资源 Allocator 类 
与 CloudSim 原来 的 资源 Provisioner 类 实现 的 逻辑 基本 上 一 致 。 抽 象 类 的 属性 有 当前 拥有 
资源 、 剩 余 可 用 资源 ,简单 实现 类 用 数据 结构 Map 映射 表 记 录 任 务 与 所 分 配 的 资源 。 此 外 ， 
CloudletCpuAllocatorSimple 同时 实现 了 CPU 资源 (Mips) 的 追加 的 接口 ,用 来 实现 对 等 待 
的 任务 追加 资源 使 得 等 待 任务 可 以 启动 。 另 一 方面 ,因为 CPU 资源 可 以 不 满足 需求 任务 
也 能 执行 ,因此 可 以 实现 多 样 的 Mips 分 配 算法 。 

MultiRECloudSim 的 资源 分 配 模式 由 CloudletCpuAllocatorSimple 实现 非 预 留 模式 的 
先 来 先 服 务 算 法 和 CloudletCpuAllocatorReservation 资源 预 留 模式 。 这 里 的 资源 预 留 与 非 
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预 留 是 针对 CPU 资源 ,不 包括 其 他 资源 ,因为 任务 模型 假设 其 他 资源 都 是 必须 要 满足 的 ， 
相当 于 其 他 资源 都 是 预 留 资 源 的 。 预 留 模式 下 , 当 任务 启动 时 ,随即 分 配 任务 需求 最 多 的 
CPU 资源 ,之 后 每 轮 的 时 间 片 都 会 分 配 那 么 多 的 资源 。 这 能 100% 保 证 任务 服务 质量 , 同 
时 意味 着 资源 会 闲置 。 非 预 留 模式 下 ,每 轮 时 间 片 的 CPU 资源 都 是 根据 任务 CPU 资源 分 
配器 按 某 种 算法 分 配 ,不 保证 一 定 满足 服务 质量 。 

CloudletCpuAllocatorSimple 先 来 先 服务 算法 。 资 源 按 顺序 分 配 ,优先 完全 满足 前 面 任 
务 的 资源 需求 ,余下 的 任务 可 能 不 完全 满足 需求 甚至 完全 没有 分 配 到 。 一 个 简单 的 例子 , 假 
设 CPU 资源 总 数 为 10, 现 在 任务 A,B,C,D 正在 运行 ,需求 分 别 是 3、4、4、3。 那 么 ,A、B、 
C.D 分 配 得 到 的 分 别 是 3、4、3、0。 这 属于 资源 非 预 留 模 式 。 

CloudletCpuAllocatorReservation 资源 预 留 模式 。 预 留 模 式 需 要 配合 相关 的 
Reservation 类 才 可 以 正常 运行 ,包括 SmPowerHostReservation, SimCloudlet-Scheduler- 
DynamicWorkloadReservation 或 SimProgressCloudletScheduler-Dynamic WorkloadReservation 。 

A) 多 资源 的 能 耗 模拟 还 需要 对 PowerDatacenter 进行 扩展 ,使 用 SimPowerDatacenter 
支持 CPU 内存 IO、 带宽 四 种 资源 的 能 耗 模拟 。 能 耗 模拟 的 基本 方式 是 每 一 轮 时 间 片 计算 
一 次 能 耗 ,根据 时 间 片 的 初始 资源 利用 率 、 结 束 资源 利用 率 以 及 利用 率 -能 耗 模型 ,线性 拟 合 
出 这 个 时 间 片 的 能 耗 。 我 们 实验 使 用 的 能 耗 模型 是 ， 

(D CPU 能 耗 模型 。 使 用 CloudSim 原本 的 PowerModelSpecPowerIbmX3550XeonX5675() 
模型 ,表示 IBM server x3550 (2 x [Xeon X5675 3067 MHz. 6 cores]. 16GB) ,参见 http:// 
www. spec. org/power_ ssj2008/results/res2011q2/power_ ssj2008-20110406-00368. html, 
可 以 根据 http://www. spec. org/ 提 供 的 基准 测试 ,实现 不 同 主机 的 CPU 能 耗 模型 。 

(2) 内 存 能 耗 模型 。 使 用 PowerModelRamSimple {7 , P= uX Pmax/1024,Pmax=r, 
P 是 功率 ,单位 瓦特 ,u 是 内 存 利用 率 ,Pmax 表示 内 存 利用 率 100% 时 的 能 耗 ,r 为 主机 
内 存 。 

(3) IO 能 耗 模型 。 使 用 PowerModelloSimple 模型 ,是 自己 测 出 来 的 数据 表示 的 线性 
模型 。P 二 uX Pmax/1024, Pmax=0. 0314573 X io, P 是 功率 ,u 是 IO 利用 率 ,Pmax 表示 
IO 利用 率 100% 时 的 能 耗 ,io 为 主机 io 资源 量 。 

由 于 学 界 对 带宽 能 耗 模型 的 研究 还 不 太 深 入 ,没有 普遍 认可 的 带宽 能 耗 模型 ,因此 本 文 
的 实验 不 涉及 带宽 资源 ,这 里 也 没有 给 出 带宽 能 耗 模型 。 

多 资源 调度 涉及 大 多 数 类 。 当 SimDatacenterBroker 向 SimDatacenter 提交 一 个 表示 
多 资源 任务 的 SimCloudlet 时 , 将 分 配 一 个 特定 的 vm 来 运行 它 ,然后 vm 的 
SimCloudletScheduler 将 接受 Simloudlet 并 将 其 安排 在 一 个 cloudlet 队列 中 。 当 
SimCloudlet 的 四 种 资源 充足 时 ,SimCloudlet 开始 运行 。 在 运行 过 程 中 ,资源 每 隔 一 段 
时 间 重 复 分 配 和 回收 。 每 个 间隔 , SimDatacenter 将 计算 每 个 主机 的 能 量 消耗 。 最 后 ， 
所 有 SimCloudlet 完成 ,我 们 将 获得 SimCloudlet 的 运行 状态 和 SimPowerHost 的 功 耗 。 
接 下 来 ,我 们 将 详细 介绍 MultiRECloudSim 的 仿真 流程 , 即 仿真 运行 以 及 类 之 间 的 相互 
作用 。 

(1) SimDatacenterBroker 将 每 个 SmPowerVm( 扩 展 Vm) 分 配给 某 些 SmPowerHost。 创 
建 SimPowerVm( 成 功 或 失败 ) 的 结果 取决 于 SimPowerHost 的 资源 是 否 足够 。 

(2) DatacenterBroker 根据 CloudletAssignmentPolicy 将 每 个 SimCloudlet 分 配给 创建 
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的 虚拟 机 。 

(3) 当 SimCloudlet 提交 给 SimPowerVm 时 ,将 由 SimCloudletSchedulerDynamicWorkload 
进行 安排 ,该 工作 将 根据 Cloudlet CloudletCpuAllocator. CloudletRamAllocator. 
CloudletIo-Allocator 和 CloudletBwAllocator 的 资源 来 检查 cloudlet 是 否 可 以 启动 。 如 果 
资源 足够 ,那么 任务 开始 。 否 则 进入 等 待 队 列 。 

循环 状态 MultiRECloudSim 更 新 cloudlet, 将 资源 重新 分 配给 vm, 每 固定 时 间 间 隔 计 
算 功 耗 : 

(D SimCloudletSchedulerDynamicWorkload 更 新 cloudlet 并 检查 是 否 有 用 于 等 待 
cloudlet 的 附加 资源 。 如 果 有 的 话 , 它 允许 等 待 的 cloudlet 启动 。 如 果 任 何 cloudlet 完成 ， 
它 会 检查 剩余 的 资源 是 否 足够 用 于 任何 等 待 的 cloudlet。 

@ SimPowerHosts 根据 SimPowerVms 的 需求 重新 分 配 所 有 资源 。 重 新 分 配 两 个 部 
分 : 将 资源 分 配给 执行 的 任务 ,并 将 资源 附加 到 等 待 的 任务 。 如 果 在 将 资源 分 配给 执行 
cloudlet 之 后 留 下 了 一 些 资源 , 它 将 检查 剩余 的 资源 是 否 足够 用 于 任何 等 待 的 cloudlet。 如 
果 是 , 它 将 资源 用 于 等 待 的 任务 。 该 过 程 重 复 ,直到 主机 的 剩余 资源 不 足以 用 于 任何 等 待 的 
任务 。 

@ SimPowerDatacenter 根据 SimPowerHosts 和 资源 功率 模型 的 资源 利用 率 计算 
功 耗 。 

图 4-18 中 的 MutilRECloudSim 类 关系 图 简单 地 说 明了 MutilRECloudSim 种 类 之 间 的 
关系 ,个 表示 从 属 关系 ,终点 连接 的 类 包含 始点 连接 的 类 ,这 种 包含 关系 显示 出 上 级 与 下 级 
的 关系 。 比 如 说 ,SimPowerDatacenter 中 拥有 许多 SimPowerHost,SimPowerDatacenter 是 
SimPowerHost 的 上 级 ,同时 SimPowerHost 也 是 SimPowerVm 的 上 级 。 个 旁边 的 数字 表 
示 上 级 与 下 级 的 数量 关系 ,是 1 对 1, 或 是 1 对 多 。 


CPU Ram 10 Bw PeProvisioner 
SimPowerDatacenter’ 
A SimRamProvisionerSimple 
SimCloudlet SimPowerHost KH " "" 
SimloProvisioner 
M CloudletAssignmentPolicy 
SimDatacenterBroker'| A SimPowerVm SimBwProvisionerSimple 


SimCloudletSchedulerDynamic Workload CloudletCpuAllocator | 


CloudletRamAllocator 
CloudletloAllocator 
CloudletBwAllocator 


图 4-18 MultiRECloudSim 的 隶属 关系 图 


图 4-19 中 显示 了 多 资源 调度 期 间 SimCloudlet 的 流程 。SimCloudlet 将 提交 给 
SimDatacenterBroker, Jf 根 据 CloudletAssignmentPolicy 分 配给 vm, 然后 由 
SimCloudletSchedulerDynamicWorkload 进行 调度 和 更 新 。SimCloudlet, SimPower-Host. 
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SimPowerVm,SimCloudletSchedulerDynamicWorkload 都 需要 多 种 资源 。SimPowerHost 
通过 一 组 分 类 管理 多 个 资源 ,而 SimPowerVm zk SimCloudlet-SchedulerDynamicWorkload 
由 一 系列 类 Allocator 管理 。 如 果 主 机 的 所 有 任务 完成 ,主机 将 关闭 。 数 据 中 心 和 数据 中 心 
代理 在 所 有 的 任务 完成 后 关闭 。 


1 PER 
PeProvisioner 


SimDatacenterBroker SimPowerDatacenter 1 
A1 1 SimRamProvisionerSimple 
1 UN 1 
| CloudletAssignmentPolicy SimPowerHost H1 
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SimPowerVm 


t 
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[SimcloudletschedulerDynamic Workload kH CloudletCpuAllocator 


th 


SimCloudlet 


NM 


UtilizationModel 


SimloProvisioner 


! SimBwProvisionerSimple 


1 
CloudletRamAllocator| 


CloudletloAllocator 


u CloudletBwAllocator 


图 4-19 多 资源 调度 的 流程 


4.5.2 MultiRECloudSim 的 API 


在 MultiRECloudSim 类 图 中 , + 箭头 表示 继承 关系 ,其 始点 连接 父 类 ,终点 连接 子 类 。 
下 面 对 MultiRECloudSim 的 类 作 简 单 的 介绍 ,其 继承 关系 类 图 如 图 4-20 所 示 。 

SimCloudlet: 这 个 类 模拟 了 需要 多 种 资源 的 云 任务 ,每 个 任务 包括 对 CPU、 内 存 、IO、 
带宽 的 需求 。 目 前 CPU 支持 静态 和 动态 的 需求 ,而 内 存 、IO、 带 宽 仅 支 持 静态 的 需求 。 这 
种 云 任务 可 以 是 快速 执行 ,快速 响应 的 小 任务 ,也 可 以 是 持续 运行 ,不 可 停止 的 云 服 务 。 可 
以 进行 在 不 同 场 景 下 任务 调度 算法 研究 和 能 耗 模拟 。 

SimCloudletSchedulerDynamicWorkload: 这 个 类 的 基 类 是 CloudletScheduler, 用 来 决 
定 虚 拟 机 内 的 任务 如 何 共 享 CPU 的 能 力 , 基本 的 调度 策略 为 时 间 共 享 
(CloudletSchedulerTimeShared) 和 空间 共享 (CloudletSchedulerSpaceShared)。 这 个 类 的 
直接 父 类 是 CloudletSchedulerDynamicWorkload, 该 类 也 是 Cloudlet-SchedulerTimeShared 
的 子 类 。 因 此 SimCloudletSchedulerDynamicWorkload 本 质 上 是 时 间 共 享 调度 策略 ,每 个 
时 间 片 分 配给 每 个 任务 一 定 的 Mips 使 任务 更 新 任务 进度 。 支 持 任务 等 待 队 列 , 使 用 资源 
分 配器 Allocator 系列 类 对 每 种 资源 进行 分 配 管理 。 

SimCloudletSchedulerDynamicWorkloadReservation: 此 类 是 SimCloudletScheduler- 
DynamicWorkload 类 的 进一步 扩展 .实现 资源 预 留 的 分 配 模式 。 后 文 会 详细 介绍 预 留 与 非 
预 留 的 分 配 模 式 。 

UtilizationModelByFile: 这 个 类 是 利用 率 模型 类 ,通过 读 取 文件 ,获得 利用 率 数据 , 根 
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4-20 MultiRECloudSim 的 继承 关系 类 图 


据 时 间 计算 SimCloudlet 对 Mips 的 需求 ,从 而 实现 任务 CPU 动态 负载 。 
SimCloudletStateHistoryEntry: 这 是 一 个 记录 SimCloudlet 不 同时 间 的 对 Mips、 内 存 、 
IO、 带 宽 的 需求 ,这 些 资 源 的 分 配 情 况 以 及 任务 状态 的 辅助 类 ,方便 对 任务 的 执行 情况 统计 


MultiRECloudSim Class I MultiRECloudSim Progress Class 
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分 析 。 

SimPowerVm: 该 类 模拟 了 需要 处 理 器 、 硬 盘 、 内 存 、 带 宽 等 多 种 资源 的 能 耗 感知 的 虚 
拟 机 。 虚 拟 机 根据 主机 (Host) 的 资源 而 创建 . 云 任务 是 指派 到 虚拟 机 上 运行 ,虚拟 机 按照 
一 定 的 策略 调度 任务 。 跟 PowerVm 的 区 别 是 增加 了 IO 资源 的 支持 。 

SimPowerHost: 这 个 类 模拟 了 需要 CPU VA TE IO、 带宽 等 多 种 资源 的 主机 ,并 封装 了 
CPU 核 蕊 列表、 虚拟 机 之 间 共 享 处 理 器 的 分 配 策略 ,为 虚拟 机 分 配 内 存 .IO 和 带宽 策略 等 。 
每 一 轮 时 间 片 ,主机 都 需要 对 虚拟 机 进行 分 配 与 追加 ,分 配 资 源 是 指 给 虚拟 机 中 正在 运行 的 
任务 重新 分 配 资源 (任务 的 资源 可 能 是 动态 不 停 变化 的 ) ,追加 资源 是 指 虚 拟 机 有 等 待 的 任 
务 ,那么 主机 可 以 追加 正在 运行 的 任务 的 资源 以 外 的 更 多 资源 给 虚拟 机 ,前提 是 总 资源 不 超 
过 虚拟 机 初始 设 定 的 配额 。 记 录 了 各 个 时 刻 不 同 资源 的 利用 率 , 根 据 资 源 利用 率 计 算 主机 
能 耗 。 

SimPowerHostReservation: 该 类 是 SmPowerHost 的 子 类 ,支持 资源 预 留 模 式 的 主 
机 ,不 同 在 于 追加 资源 是 资源 预 留 的 方式 。 

SimPowerDatacenter: 模拟 能 耗 数据 中 心 , 它 封装 了 一 系列 主机 和 其 他 基本 信息 ,这 些 
主机 支持 同 构 或 异 构 的 资源 (处 理 器 、 内 存 、 容 量 、 带 宽 等 )。 并 且 它 会 在 每 个 时 间 片 结束 计 
算 所 有 主机 的 不 同时 刻 的 产生 的 总 能 耗 ,主机 的 能 耗 是 根据 多 种 资源 能 耗 总 和 计算 的 。 

SimDatacenterBroker: 该 类 模拟 了 一 个 数据 中 心 代理 的 角色 ,负责 协调 用 户 和 云 供应 
商 之 间 的 信息 交互 。 它 通过 查询 云 信息 服务 (CloudInformationService) 找 到 合适 的 数据 中 
心 ,并 根据 服务 质量 的 需求 与 数据 中 心 协商 资源 和 作业 的 分 配 策略 。 原 来 的 话 , 如 果 要 设计 
和 评估 自 定义 的 作业 分 配 策略 就 必须 扩展 DatacenterBroker。 现 在 的 话 , 将 该 功能 抽取 出 
来 ,由 CloudletAssignmentPolicy 类 负载 。 数 据 中 心 代理 和 云 协调 器 (CloudCoordinator) 的 
区 别 是 ,前 者 针对 用 户 , 即 代理 所 做 的 决策 是 为 了 增加 用 户 相 关 的 性 能 度量 标准 ; 而 后 者 针 
对 数据 中 心 , 即 协调 器 试图 最 大 化 数据 中 心 的 整体 性 能 ,而 不 考虑 特定 用 户 的 需求 。 新 增 成 
员 变 量 任 务 指派 策略 CloudletAssignmentPolicy。 

CloudletAssignmentPolicy: 任务 指派 策略 抽象 类 ,该 类 表示 由 数据 中 心 代理 提交 的 任 
务 指派 数据 中 心 的 虚拟 机 的 策略 。 具 体 策略 由 子 类 实现 , 子 类 唯一 需要 实现 任务 分 派 给 虚 
拟 机 的 方法 assignCloudletsToVm()。 

CloudletAssignmentPolicySimple: 顺序 任务 分 派 算 法 ,CloudSim 原来 的 分 派 方法 。 

CloudletAssignmentPolicyBalance: 主 资源 负 均 衡 分 配 算法 ,MultiRECloudSim 独 有 的 
分 派 方法 。 

SimRamProvisionerSimple: 这 个 类 用 于 模拟 主机 对 虚拟 机 的 内 存 分 配 策略 。 它 是 
RamProvisionerSimple 类 的 扩展 ,主要 新 增 检 查 内 存 是 否 足 够 追加 给 任务 和 追加 内 存 给 任 
务 的 方法 。 

SimBwProvisionerSimple: 这 个 类 用 于 模拟 主机 对 虚拟 机 的 带宽 分 配 策略 。 是 
BwProvisionerSimple 类 的 扩展 ,主要 新 增 检查 带宽 是 否 足 够 追加 给 任务 和 追加 带宽 给 任务 
的 方法 。 

SimIoProvisioner: 这 个 抽象 类 用 于 模拟 主机 对 虚拟 机 的 IO 分 配 策略 。IO 资源 配置 
器 的 抽象 类 ,实现 逻辑 与 RamProvisioner, BwProvisioner 是 一 致 的 。 

SimloProvisionerSimple: IO 资源 配置 器 的 简单 实现 类 ,实现 逻辑 与 
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SimRamProvisionerSimple, SimBwProvisionerSimple 是 一 致 的 。 

CloudletCpuAllocator: 任务 CPU 资源 分 配器 抽象 类 ,负载 对 虚拟 机 对 任务 的 CPU VE 
源 的 分 配 管理 回收 功能 ,实现 逻辑 与 Provisioner 系列 类 基本 一 样 。 基 本 属性 是 虚拟 机 总 
Mips 和 剩余 Mips。 重 要 的 方法 有 检查 剩余 CPU 资源 是 否 满足 任务 的 需求 ,分 配 CPU VE 
源 给 一 个 任务 ,分 配 CPU 资源 给 多 任务 等 。 可 以 实现 多 样 的 CPU 资源 分 配 算法 ,比如 优 
先 级 ,公平 分 配 等 。 
CloudletCpuAllocatorSimple: 任务 CPU 资源 分 配器 简单 实现 类 ,实现 了 所 有 基本 的 方 
法 。 而 关键 体现 的 算法 特征 的 方法 一 一 分 配 CPU 资源 给 多 任务 ,该 类 的 分 配 算法 是 按 顺 
序 优先 完全 满足 前 面 的 任务 , 剩 下 的 任务 分 配 的 CPU 资源 可 能 不 足 甚至 完全 不 分 配 。 
CloudletCpuAllocatorMaxMinFairness: 任务 CPU 资源 分 配器 的 最 大 最 小 公平 算法 实 
CloudletCpuAllocatorReservation: CPU 资源 预 留 分 配 算法 ,任务 启动 的 时 候 会 分 配给 
任务 足够 的 资源 ,保证 任务 后 面 不 会 出 现 CPU 资源 不 足 , 需 要 已 知 任务 的 最 大 CPU 需求 ， 
能 百 分 百 保证 任务 服务 质量 。 
CloudletRamAllocator、CloudletIoAllocator、CloudletBwAllocator: 分 别 是 任务 的 内 
存 ,IO、 带 宽 分 配器 的 抽象 类 ,负载 对 虚拟 机 对 任务 的 这 些 资源 的 分 配 管理 回收 功能 ,实现 
i258 — FÉ. + CloudletCpuAllocator 不 完全 一 致 的 地 方 是 ,没有 分 配 资源 给 多 任务 的 方法 。 
CloudletRamAllocatorSimple、CloudletIoAllocatorSimple、CloudletBwAllocatorSimple: 
任务 资源 分 配器 简单 实现 类 ,实现 了 所 有 基本 的 方法 。 

下 面 几 个 类 是 与 基于 进度 的 云 任务 有 关 的 。 对 于 多 资源 调度 的 仿真 ,我 们 推荐 使 用 基 

SimProgressCloudlet; 它 是 基于 进度 的 多 资源 云 任务 , 它 是 SimCloudlet 的 子 类 。 它 根 
据 任务 的 进度 读 取 利用 率 数据 ,而 不 是 根据 时 间 。 

UtilizationProgressModelByFile; 它 是 基于 进度 的 利用 率 模型 。 当 前 请 求 的 资源 利用 
率 是 根据 任务 的 进度 和 工作 负载 文件 中 的 数据 计算 出 来 的 。 

SimProgressCloudletSchedulerDynamicWorkload; 与 SimCloudletSchedulerDynamicWorkload 
相 比 , 它 增加 了 SimProgressCloudlet 进度 的 更 新 以 及 对 SimProgressCloudlet 的 支持 。 

SimProgressCloudletSchedulerDynamicWorkloadReservation: 与 SimProgressCloudl- 
etSchedulerDynamicWorkload fH LE , 它 增 加 了 对 CPU 资源 预 留 算法 的 支持 。 

SimProgressVm: 它 是 基于 进度 的 能 耗 感知 虚拟 机 ,继承 自 SimPowerVm. 主要 重 写 了 
一 些 方法 来 支持 面向 进度 。 


4.5.3 MultiRECloudSim 的 使 用 方法 


由 上 可 知 ,MultiRECloudSim 被 开发 出 来 的 目的 之 一 就 是 完善 之 前 仿真 平台 在 能 耗 模 
拟 上 的 不 足 之 处 。 为 此 ,新 的 云 任务 单位 模型 新 的 对 应 的 任务 分 配 策略 、 新 的 任务 调度 器 
以 及 其 他 为 配合 以 上 内 容 的 工具 类 便 应 运 而 生 。 由 于 篇 幅 所 限 , 所 以 在 这 里 将 通过 呈现 4 
个 的 基于 MultiRECloudSim 平台 的 运用 实例 来 介绍 MultiRECloudSim 的 使 用 方法 。 它 们 
分 别 是 用 于 实现 公开 方法 比如 创建 任务 .虚拟 机 、 数 据 中 心 和 数据 中 心 代理 以 及 统计 任务 状 
况 等 的 帮助 类 Helper, 基 于 进度 的 资源 非 预 留 仿真 实例 ProgressSimpleMain, 基 于 进度 的 
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资源 预 留 仿真 实例 ProgressReservedMain 和 蜡 构 环境 下 的 基于 进度 的 资源 预 留 仿真 实例 
ProgressReservedHeterogeneousMain 。 

以 上 4 份 代码 都 在 包 org. cloudbus. cloudsim. main 中 。 需 要 注意 的 是 ,要 运行 
MultiRECloudSim ,首先 导入 到 Eclipse. 再 引入 cloudsim-3. 0. 3. jar. 最 后 修改 org. 
cloudbus. cloudsim. main. Helper 类 中 的 projectPath 成 员 变 量 ,修改 为 MultiRECloudSim 
项 目的 存放 路 径 。 下 面 开 始 介绍 MultiRECloudSim 的 API 使 用 实例 。 

1) Helper 类 可 以 实现 一 些 公 开 的 方法 ,除了 创建 数据 中 心 等 模拟 仿真 必要 元 素 外 ,还 
有 打印 一 些 关键 信息 的 方法 ,例如 outputHostUtilizationHistory(file,newList) 会 创建 一 个 
文件 来 记录 所 有 任务 在 运行 过 程 中 的 各 个 时 刻 的 资源 分 配 情况 。 由 于 以 上 的 方法 都 是 很 多 
情况 下 要 用 到 的 公共 方法 ,有 了 时候 肯定 会 无 法 满足 特定 需求 ,所 以 程序 员 也 可 以 不 用 
Helper 类 的 方法 转 而 根据 自己 的 需求 自己 另外 写 一 段 代码 。 

Helper 类 中 ,用 到 的 API 有 SimPowerDatacenter, SimPowerHost, SimRamProvisionerSimple, 


SimBwProvisionerSimple, SimloProvisionerSimple, SimProgressCloudletSchedulerDynam- 


icWorkloadReservation, CloudletCpuAllocatorReservation, CloudletRamAllocatorSimple, 
CloudletIoAllocatorSimple. CloudletBwAllocatorSimple, SimProgressCloudlet, Utilization- 
ProgressModelByFile.SimDatacenterBroker.CloudletAssignmentPolicy, ix #6 API 的 具体 
用 法 及 其 参数 的 介绍 和 含义 见 下 面 Helper 类 的 代码 注释 。 


// 创 建 数据 中 心 ,schedulingInterval 表示 能 耗 计算 的 时 间 片 ,每 隔 一 个 schedulingInterval, 


// 计 算 一 次 所 有 主机 的 能 耗 
public static SimPowerDatacenter createDatacenter(String name, double schedulingInterval, int 
hostNumber, int vmNumberPerHost, int type, String scheduler) ( 
List < SimPowerHost» hostList = new ArrayList < SimPowerHost >(); 
int mips - 3067; 
int ram - 16 * 1024; 
PowerModel powerModelCpu = new PowerModelSpecPowerlIbmX3550XeonX5675() ; 
if (type == 1) { 
mips = 2300; 
ram = 256 * 1024; // 主 机 内 存 (MB) 
powerModelCpu = new 
PowerModelSpecPowerDellPowerEdgeC6320XeonE52699 ( ) ; 
) 
long storage - 1000000; // 主 机 存储 
long bw = (vmNumberPerHost) * 10000; 
long io = 500; 
double staticPowerPercent = 0.01; 
PowerModel powerModelRam = new PowerModelRamSimple(ram); 
PowerModel powerModello = new PowerModelloSimple(io); 
PowerModel powerModelBw = new PowerModelCubic(100, staticPowerPercent); 
for (int i = 0; i<hostNumber; i++) { // 根 据 主 机 数目 生成 主机 
List«Pe» peList = new ArrayList <Pe>(); 
for (int j = 0; j < vmNumberPerHost; j++) ( // 根据 虚拟 机 数目 生成 核 芯 
peList. add(new Pe(j, new PeProvisionerSimple(mips))); 
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) 
if (!"time".equals(scheduler)) { 
Log. printLine("SImOVer"); 
//SimXProvisionerSimple 类 都 是 模拟 主机 给 虚拟 机 分 配 资源 X 的 ， 
// 所 需 参 数 就 是 给 主机 分 配 的 资源 xX 的 总 值 
hostList. add(new SimPowerHost(i, new 
SimRamProvisionerSimple(ram), new 
SimBwProvisionerSimple(bw), 
new SimIoProvisionerSimple(io), storage, peList, 
new VnSchedulerTimeSharedOverSubscription(peList), 
powerModelCpu, powerModelRam, 
powerModello, powerMode1Bw) ) ; 
} else { 
Log. printLine("TIME") ; 
hostList. add(new SimPowerHost(i, new 
SimRamProvisionerSimple(ram), new SimBwProvisionerSimple(bw), 
new SimIoProvisionerSimple(io), storage, peList, new 
VnSchedulerTimeShared(peList), 
powerModelCpu, powerModelRam, powerModello, powerModelBw)); 
) 
} 
// 创 建 一 个 主机 需要 一 个 描述 主机 特征 的 参数 , 主机 配置 包括 系统 架构 , 系 
// 统 名 称 , 虚 拟 机 监听 器 名 称 等 信息 ,具体 参数 如 下 所 示 


String arch = "x86"; // 系 统 架 构 

String os = "Linux"; // 系 统 名 称 

String vmm = "Xen"; // 虚 拟 机 监听 器 

double time zone = 10.0; // 所 在 时 区 

double cost = 3.0; // 主 机 工作 时 每 秒 的 能 耗 

double costPerMem = 0.05; // 主 机 工作 时 候 每 单位 内 存 的 能 耗 
double costPerStorage = 0.001; // 主 机 工作 时 候 每 单位 存储 空间 的 能 耗 
double costPerBw = 0.02; // 主 机 工作 时 候 每 单位 带宽 的 能 耗 


LinkedList < Storage» storageList = new LinkedList < Storage>(); 

// 创 建 一 个 描述 主机 属性 的 变量 

DatacenterCharacteristics characteristics = new DatacenterCharacteristics(arch, os, 
vmm, hostList, time zone, cost, costPerMem, costPerStorage, costPerBw); 


// 最 后 一 个 步骤 当然 是 创建 一 个 SinPowerDatacenter 对 象 
SimPowerDatacenter datacenter = null; 
try { 
//SimPowerDatacenter 的 创建 以 及 需要 的 参数 如 下 ,需要 一 个 虚拟 机 的 分 配 策略 
datacenter = new SimPowerDatacenter(name, characteristics, new 
PowerVmAllocationPolicySimple(hostList), 
storageList, schedulingInterval); 

} catch (Exception e) { 

e. printStackTrace(); 
j 


return datacenter; 
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// 创 建 虚拟 机 列表 ,userId 是 用 户 名 id, 说 白 了 就 是 数据 中 心 代理 的 id. 其 他 的 参数 顾名思义 
public static List < SimPowerVm > createVMs(int userId, int hostNumber, 
int vmNumberPerHost) { 
List < SimPowerVm> list = new ArrayList <SimPowerVm>(); 
long size = 10000; // 镜 像 大 小 (MB) 
int ram = 2048; //WH 的 内 存 (MB) 
int mips = 3067; 
if (vmNumberPerHost == 12) ( 
rem - 1024; 
mips = 1533; 
) 
long bw = 10000; 
long io = (long) (500 / vnNumberPerHost); 
int pesNumber - 1; //cPU 数目 
String vmm = "Xen"; SÒM 的 名 称 
SimPowerVm vm = null; 


for (inti = 0; i< hostNumber * vmNumberPerHost; i++) ( 
// 创 建 一 个 扩展 WW 如 下 所 示 
vm = new SimPowerVm(i, userId, mips, pesNumber, ram, io, bw, size, 1, vmm, 
// 与 资源 预 留 搭配 使 用 的 基于 进度 的 多 资源 的 动态 负载 任务 调度 器 
//cloudletXaRllocatorSimple 云 任务 X 资 源 分 配 简单 实现 类 ,是 顺序 分 配 ， 
// 而 CloudletCpuAllocatorReservation 则 是 云 任务 x 资源 分 配 类 ,支持 
// 资 源 预 留 分 配 . 前 面 也 提 到 过 , 仅 CPU 资源 支持 资源 预 留 分 配 .这 些 资 源 
// 分 配器 初始 化 都 需要 一 个 参数 ,表示 最 大 分 配给 一 个 云 任务 的 资源 数量 . 
new SinProgressCloudletSchedulerDynamicWorkloadReservation(mips, 
pesNumber, new CloudletCpuAllocatorReservation(mips), new 
CloudletRamAllocatorSimple(ram), 
new CloudletIoAllocatorSimple( io), 
new CloudletBwAllocatorSimple(bw)), 
5)7 
list. add( vm) ; 
} 
return list; 
} 
// 创 建 基于 进度 的 多 资源 云 任务 列表 
public static List < SimProgressCloudlet > createCloudlets(int userId, int cloudlets, 
boolean loadDynamic, boolean loadAware, boolean write) throws URISyntaxException, 
NumberFormatException, IOException ( 
SimProgressCloudlet[] list = new SimProgressCloudlet[cloudlets]; 
SimProgressCloudlet[] randomList - new SimProgressCloudlet[cloudlets]; 
String inputFolder - 
ProgressSimpleMain. class. getClassLoader().getResource("utilization"). 
toURI().getPath(); 
File[] files = new File(inputFolder).listFiles(); 
String workloadPath - null; 
SimProgressCloudlet cloudlet - null; 
for (inti = 0; i<cloudlets; i++) { 


if (loadDynamic) 
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} 


workloadPath = files[i % 2].getPath(); 
// 创 建 不 同 种 资源 密集 型 的 云 任务 ,不 过 仅 CPU 的 利用 率 才 是 动态 变化 的 ， 
// 其 他 种 类 资源 都 是 固定 配置 的 
cloudlet = createIntensiveCloudlet(i, i % 4, workloadPath, loadAware); 
cloudlet. setUserId(userId) ; 
list[i] = cloudlet; 
h 
if (write) ( / [write 表示 随机 生成 的 任务 是 否 写 到 文件 上 
String filename = "Cloudlet "; 
String output = OUTPUT + filename + list.length + " 2"; 
System. out. println("Write Cloudlets " * output); 
File file = new File(output); 
try { 
if (!file. exists()) 
file. createNewFile(); 
else 
file. delete(); 
) catch (IOException el) { 
el. printStackTrace( ) ; 
System. exit(0); 
} 
DecimalFormat dft = new DecimalFormat(" i # #.# #"); 
try { 
BufferedWriter writer = new BufferedWriter(new FileWriter(file)); 
for (int i = 0; i< list. length; i++) { 
writer. write(list[ i]. getCloudletLength() + "Vt" + list[i].getMips() + 
"\t" + list[i].getRam() + "\t" 
+ list[i].getIo() + "\t" + list[i].getBw() + "\n"); 
} 
writer. close( ); 
} catch (IOException e) { 
e. printStackTrace(); 
Systen. exit(0); 


} 


return Arrays. asList(list) ; 


public static SimProgressCloudlet createIntensiveCloudlet(int id, int type, String path, 
boolean loadAware) throws URISyntaxException, NumberFormatException, IOException { 


long length = 90000 / (id % 12 + 1); 

length += random(0, (int) length / 2) — length / 4; 
long fileSize = 0; 

long outputSize = 0; 

int pesNumber = 1; 

int mips = 200, ram = 256; 

long io = 5, bw = 0; 

double interval = 100; 

boolean aware = loadAware; 

final int CPU = 0, RAM = 1, IO = 2, BW = 3; 
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// 根 据 type 来 决定 创建 何 种 资源 密集 型 的 任务 
switch (type) { 


Case CPU: 
mips = 800 + random(0, 800); 
break; 

Case RAM: 
mips = 100; 
mips += random(0, 700); 
ram = 384; 
ram += random(0, 512); 
break; 

case I0: 
mips - 100; 
mips *- random(0, 700); 
io - 20; 
io += randon(0, 40); 
break; 

case BW: 
break; 


) 


UtilizationModel utilizationModelCpu - null; 
if (path != null) 
//cpu 的 利用 率 是 根据 一 个 模拟 动态 变化 利用 率 的 文件 体现 的 . 目前 只 有 
//cpu 才 支持 动态 负载 .参数 " interval" 表示 利用 率 数据 间 的 时 间 间 
// 隔 ,总 的 时 间 等 于 interval* (点 的 数目 一 1) 
utilizationModelCpu = new UtilizationProgressModelByFile(path, interval, aware); 
else 
//UitilizaitonModelFull 表明 该 资源 利用 率 模型 是 满 利 用 率 模型 
utilizationModelCpu = new UtilizationModelFull(); 
UtilizationModel utilizationModelRam - new UtilizationModelFull(); 
UtilizationModel utilizationModello = new UtilizationModelFull(); 
UtilizationModel utilizationModelBw - new UtilizationModelFull(); 
// 类 似 于 扩展 前 的 Cloudlet, 扩展 后 的 Cloudlet 的 创建 参数 同样 需要 
return new SimProgressCloudlet(id, length, pesNumber, fileSize, outputSize, 
mips, ram, io, bw, utilizationModelCpu, utilizationModelRam, utilizationModello, 
utilizationModelBw); 
) 
// 创 建 数据 中 心 代理 ,扩展 后 的 SimDatacenterBroker 需要 知道 当前 任务 的 分 配 策略 这 
// 个 参数 。 不 同 分 配 策略 的 区 别 见 下 文 表 4- 1, 表 4-2, 表 4-3 
public static SimDatacenterBroker createBroker(int cloudletAssignPolicy) { 
CloudletAssignmentPolicy[] policy = new CloudletAssignmentPolicy[5]; 
policy[0] = new CloudletAssignmentPolicySimple(); 
policy[1] = new CloudletAssignmentPolicyRandom( ) ; 
policy[2] = new CloudletAssignmentPolicyBalance(); 
policy[3] = new CloudletAssignmentPolicyGreedyArea(0.8, 50, 5); 
policy[4] = new CloudletAssignmentPolicyTimeGreedy( ) ; 
SimDatacenterBroker broker = null; 
try { 
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broker = new SimDatacenterBroker("Broker", policy[cloudletAssignPolicy]); 


) catch (Exception e) ( 


e. printStackTrace( ) ; 


return null; 
} 
return broker; 
} 


Helper 类 剩 下 的 方法 ,要 么 是 上 述 介绍 的 方法 大 同 小 异 的 改动 后 的 重 载 ,要 么 就 是 没 
体现 到 MultiRECloudSim 的 独 有 API 相 比 之 前 CloudSim 改进 的 公共 方法 ,比如 一 些 用 于 
打印 关键 实验 仿真 数据 的 方法 。 详 细 可 见 源码 ,此 处 就 不 再 袭 述 。 

2) 基于 进度 的 资源 非 预 留 仿真 类 (ProgressSimpleMain) 是 能 作为 java 程序 直接 运行 
的 实例 。 该 类 的 目的 是 比较 不 同 的 任务 指派 算法 -CPU 分 配 算法 组 合 的 在 资源 非 预 留 的 情 
况 下 的 任务 完成 时 间 与 能 耗 。 该 类 的 能 耗 模拟 遵循 一 个 固定 的 基本 步骤 (当然 接 下 来 要 介 


绍 到 的 另外 两 个 类 也 是 这 样 ) : 
(1) 初始 化 CloudSim 6; 


(2) 创建 数据 中 心 SimPowerDatacenter ,创建 数据 中 心 代理 SimDatacenterBroker; 


G) 创建 虚拟 机 列表 ; 
(4) 创建 云 任务 列表 ; 


(5) 数据 中 心 代理 分 别提 交 虚 拟 机 和 云 任务 列表 ; 
(6) 给 Helper 类 传递 参数 hostnumber, 让 其 完成 帮助 类 相关 的 初始 化 ; 


CO 启动 仿真 ; 


(8) 结束 仿真 ,统计 结果 并 输出 结果 


程序 开头 就 列 出 了 实验 的 主要 参数 ,具体 如 表 4-2 所 示 。 
R42 实验 主要 参数 列表 


SCHEDULING_INTERVAL 


仿真 间隔 ,反映 仿真 结果 的 颗粒 度 , 越 小 仿真 结果 越 
准确 ,运行 时 间 越 长 


NUM_HOST 主机 数目 

NUM_VM 每 个 主机 中 的 虚拟 机 数目 
NUM_CLOUDLET 任务 数 
DYNAMIC_WORKLOAD 任务 的 CPU 负载 是 否 动态 变化 
WORKLOAD_AWARE 是 否 已 知 任务 的 负载 数据 


VMSCHEDULER 


测试 VMSCHEDULER 的 参数 ,已 经 没 用 


CLOUDLET ASSIGN POLICY SIMPLE 


顺序 任务 指派 策略 


CLOUDLET_ASSIGN_POLICY_RANDOM 随机 任务 指派 策略 
CLOUDLET_ASSIGN_POLICY_BALANCE 主 资源 负载 均衡 任务 指派 策略 
CLOUDLET ASSIGN POLICY 表示 选择 哪 一 个 任务 指派 策略 
CPU_ALLOCATOR_SIMPLE 先 到 先 得 的 CPU 分 配 策略 
CPU ALLOCATOR MAXMIN 最 大 最 小 的 CPU 分 配 策略 


CPU ALLOCATOR 


表示 选择 哪 一 个 CPU 分 配 策略 


第 4 章 云 计算 编程 实践 e 


核心 代码 以 及 注释 如 下 所 示 。 


public static void main(String[] args) throws IOException, URISyntaxException { 
long begin = System.currentTimeMillis(); 
List« Integer» cls = new ArrayList < Integer>(); 
String name - null; 
try ( 
for (int i = 10; i<= 2000; i = i + 2000) {// 可 以 快速 方便 在 不 同 任务 数 情况 下 的 实 
// 验 ,可 注释 则 变 成 一 次 实验 


cls.add(i); 
NUM CLOUDLET = i; 
int num user = 1; // 云 用 户 数量 ,我 们 一 般 赋值 1 即 可 


Calendar calendar = Calendar.getInstance(); 

boolean trace flag - false; // 意 味 着 跟踪 事件 

CloudSim. init(num user, calendar, trace flag); 

double schedulingInterval - SCHEDULING INTERVAL; 

// 创 建 SimPowerDatacenter, 调用 Helper 类 中 的 方法 创建 NUM_HOST 个 

// 主 机 ,每 个 主机 NUM_WM 个 核 芯 (Pe), 每 个 主机 配置 一 样 

SimPowerDatacenter datacenter0 = Helper. createDatacenter("Datacenter0", 

SchedulingInterval, NUM_HOST,NUM_VM, 0, VMSCHEDULER) ; 

// 调 用 Helper 中 的 方法 创建 数据 中 心 代理 ,并 根据 参数 

//CLOUDLET_ASSIGN_POLICY 选择 任务 指派 算法 

SimDatacenterBroker broker = 
Helper.createBroker(CLOUDLET ASSIGN POLICY); 

int brokerId = broker.getId(); 


List< SimPowerVm» vmlist = new ArrayList < SimPowerVm»(); 

// 创 建 SinPowerVn, 调用 Helper 中 的 方法 创建 NUM_HOST * 

//NUM_VM 个 虚拟 机 ,每 个 虚拟 机 配置 一 样 ,并 根据 参数 选择 CPU 分 

// 配 策略 .在 该 程序 中 ,不 同 于 上 面 A) 提 到 的 createVMs 方 法 ,此 处 的 

//WH 创 建 用 到 的 是 Helper 类 中 另外 一 个 重 载 方法 createVMs. 这 两 个 

// 方 法 的 唯一 区 别 就 是 有 无 云 任务 的 资源 预 留 .这 也 符合 本 程序 

/A* 非 预 留 仿真 "的 特点 

vnlist.addAll(Helper.createVMs(brokerlId, NUM_HOST, NUM_VM, 
CPU_ALLOCATOR) ) ; 

broker. submitVmList(vmlist) ; 

List < SimProgressCloudlet > cloudletList = new ArrayList < SimProgressCloudlet »() ; 

// 创 建 SimProgressCloudlet, 使 用 Helper 类 来 创建 三 种 密集 型 的 任务 : 

//CPU, 内存,I0, 比例 是 1 : 1 : 1. 参 数 DYNAMIC_WORKLOAD 决 

// 定 是 否 使 用 动态 负载 来 形容 负载 数据 .参数 

//WORKLOAD_AWARE 决定 负载 数据 是 否 视 为 已 知 

cloudletList. addAll(Helper.createCloudlets(brokerId, NUM CLOUDLET, 
DYNAMIC WORKLOAD, WORKLOAD AWARE)); 

broker.submitCloudletList(cloudletList); 

/ [3i fT Helper 类 的 一 些 初始 化 工作 

Helper. init(NUM HOST); 

// 表 示 是 否 打印 MultiRECloudSim 中 的 详细 运行 日 志 ,会 大 大 影响 程序 

// 运 行 时 间 

Log. setDisabled(true); 
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double lastClock = CloudSim. startSimulation() 


CloudSim. stopSimulation(); 
// 获 取 成 功 被 数据 中 心 代理 接收 的 云 任务 


i 


List <SimCloudlet > newList = broker.getCloudletReceivedList(); 
name = DYNAMIC WORKLOAD + " " + NUM VM + "vm" + 
CLOUDLET ASSIGN POLICY + CPU ALLOCATOR + "_. txt"; 


String file = "simple " + name; 


// 该 方法 会 创建 一 个 文件 来 记录 所 有 任务 在 运行 过 程 中 的 各 个 时 刻 的 资 


// 源 分 配 情况 ,对 于 动态 负载 可 以 观察 其 变化 
Helper.outputCloudletHistory(file, newList); 


// 该 方法 会 创建 一 个 文件 来 记录 所 有 主机 在 各 个 时 刻 的 资源 利用 率 以 及 能 耗 
Helper.outputHostUtilizationHistory("simple utilization " * name); 
// 列 举 所 有 任务 的 状态 ,数据 中 心 , 虚 拟 机 ,等 待 时 间 , 启 动 时 间 , 完 

// 成 时 间 , 长 度 ,MIPS, 内 存 , I0, 以 及 是 哪 种 密集 型 的 
Helper.printCloudletList(newList, NUM CLOUDLET); 

// 该 方法 会 统计 一 些 指标 并 打印 实验 概要 信息 . 比如 本 次 实验 名 称 , 主 


// 机 数 ,虚拟 机 数 ,总 运行 时 间 和 总 能 耗 等 信息 


Helper. printResults( (PowerDatacenter) datacenter0, vmlist, lastClock, 


"ProgressSimpleMain"); 
) 


// 该 方法 会 创建 文件 来 记录 实验 统计 指标 : 任务 数 ,总 时 间 , 总 能 耗 ,SLR 
// 违 反 率 .适合 得 到 多 次 不 同 任务 数 下 的 实验 结果 ,方便 复制 到 Excel 中 


Helper.outputResult("Result " + name, cls); 


Log. printLine("Finish! Total Run Time:" + (System. 


} catch (Exception e) { 
e. printStackTrace( ) ; 
Log. printLine("Unwanted errors happen") ; 
} 
} 


currentTimeMillis() — begin)); 


3) 基于 进度 的 资源 预 留 仿真 (ProgressReservedMain) 程 序 目的 是 比较 不 同 的 任务 指 


派 算 法 在 资源 预 留 的 情况 下 的 任务 完成 时 间 与 能 耗 。 


该 类 的 核心 代码 与 前 述 的 


ProgressSimpleMain 的 核心 代码 是 差不多 。 虽 然 不 同 之 处 很 小 , 却 直接 将 这 两 个 类 的 性 质 


完全 区 分 开 来 。 


首先 程序 前 的 参数 多 了 三 个 表明 任务 分 配 策略 的 常量 ,如 表 4-3 所 示 。 


表 4-3 三 个 表 任务 分 配 策略 的 常量 


CLOUDLET_ASSIGN_POLICY_TIME_GREDDY 最 大 最 小 任务 指派 策略 

异 构 环境 的 主 资源 负载 均衡 任务 
CLOUDLET_ASSIGN_POLICY_HETEROGENEOUS_BALANCE 

指派 策略 
CLOUDLET ASSIGN POLICY TIME BALANCE 时 间 均 衡 任务 指派 策略 


其 次 , 在 创建 主机 时 候 , 调用 的 是 扩展 后 的 为 


资源 预 留 服务 的 主机 类 


SimPowerHostReservation; 在 创建 虚拟 机 时 ,给 虚拟 机 类 传递 的 云 任务 调度 器 参数 是 为 资 
源 预 留 服务 的 类 SimProgressCloudletSchedulerDynamicWorkloadReservation, 当然 其 资源 
分 配器 参数 也 是 为 资源 预 留 服务 的 类 CloudletCpuAllocatorReservation。 具 体 代 码 以 及 注 
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释 如 下 。 


private static SimPowerDatacenter createDatacenter(String name, double schedulingInterval, 
int hostNumber, int vmNumberPerHost) { 
List < SimPowerHostReservation> hostList = new 
ArrayList < SimPowerHostReservation >(); 
int mips = 3067; 
int ram = 16 * 1024; // 主 机 内 存 (MB) 
long storage = 1000000; // 主 机 存储 容量 
long bw = (vmNumberPerHost) * 10000; 
long io = 500; 
double staticPowerPercent = 0.01; 
PowerModel powerModelCpu = new PowerModelSpecPowerIbmX3550XeonX5675( ) ; 
PowerModel powerModelRam - new PowerModelRamSimple(ram); 
PowerModel powerModello - new PowerModelloSimple( io); 
PowerModel powerModelBw = new PowerModelCubic(100, staticPowerPercent); 
for (int i = 0; i< hostNumber; i++) ( // 根 据 主 机 数目 生成 主机 
List«Pe» peList = new ArrayList <Pe>(); 
for (int j = 0; j < vnNumberPerHost; j++) ( // 根 据 虚 拟 机 数目 生成 核 芯 
peList. add(new Pe(j, new PeProvisionerSimple(mips))); 
} 
// 要 创建 一 个 能 够 预 留 资源 给 云 任务 的 主机 ,需要 创建 一 个 
//SimPowerHostReservation 对 象 , 其 他 所 需 参 数 跟 simpowerhost 一 致 
// 另 外 该 对 象 的 创建 需要 的 vn 的 时 间 共 享 调度 器 参数 分 为 是 否 允许 超额 
// 分 配 资源 (CP0) 两 种 ,不 过 我 们 此 处 都 采用 允许 超额 分 配 的 策略 
hostList.add(new SimPowerHostReservation(i, new 
SimRamProvisionerSimple(ram), 
new SimBwProvisionerSimple(bw), new 
SimIoProvisionerSimple(io),storage, peList, 
new SimVmSchedulerTimeSharedOverSubscription(peList), 
powerModelCpu, powerModelRam, powerModello, 
powerModelBw)); 
) 
// 以 下 变量 的 含义 同上 面 内 容 提 到 的 同名 变量 
String arch = "x86", os = "Linux", vmm = "Xen"; 
double time zone - 10.0, cost - 3.0; 
double costPerMem - 0.0, costPerStorage - 0.001, costPerBw - 0.02; 
LinkedList < Storage» storageList = new LinkedList < Storage >(); 
DatacenterCharacteristics characteristics - new DatacenterCharacteristics(arch, os, 
vmm, hostList, time zone, 
cost, costPerMem, costPerStorage, costPerBw); 
SimPowerDatacenter datacenter - null; 
try ( 
datacenter - new SimPowerDatacenter(name, characteristics, new 
PowerVmAllocationPolicyByHost(hostList), 
storageList, schedulingInterval); 
) catch (Exception e) ( 
e. printStackTrace(); 
} 


return datacenter; 
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private static List < SimPowerVm > createVMs(int userId, int hostNumber, int 
vmNumberPerHost) ( // 创 建 虚拟 机 
List <SimPowerVm> list = new ArrayList < SimPowerVm»(); 
long size = 10000; 
int ram = 2048, mips = 3067; 
if (vmNumberPerHost == 12) { 
ram = 1024; 
mips = 1533; 
) 
long bw = 10000; 
long io - (long) (500 / vmNunberPerHost); 
int pesNumber - 1; 
String vmm - "Xen"; 
SimPowerVm vm - null; 
// 为 了 实现 资源 预 留 ,虚拟 机 创建 的 时 候 需 要 的 任务 调度 器 也 要 改 为 配套 的 
//SimProgressCloudletSchedulerDynamicWorkloadReservation. 另 外 ,由 于 目 
// 前 我 们 开发 的 平台 只 支持 cpu 的 资源 预 留 ,所 以 也 就 任务 的 cpu 分 配器 改 为 
// 配 套 的 CloudletCpuAllocatorReservation. 参数 "5" 表 示 每 隔 一 个 
//schedulingInterval, 记录 一 次 CPU 利用 率 ,保存 在 成 员 变量 List < Double 
//utilizationHistory 中 
for (int i = 0; i< hostNumber * vmNumberPerHost; i++) { 
vm = new SimPowerVm(i, userId, mips, pesNumber, ram, io, bw, size, 1, 
vmm, 
new SimProgressCloudletSchedulerDynamicWorkloadReservation(mips, 
pesNumber, 
new CloudletCpuAllocatorReservation(mips), new 
CloudletRamAllocatorSimple(ram) , 
new CloudletIoAllocatorSimple( io), 
new CloudletBwAllocatorSimple(bw)), 
5); 
list.add(vm); 
} 
return list; 


f 


4) 基于 进度 的 异 构 环 境 下 的 资源 预 留 仿 真 (ProgressReservedHeterogeneousMain f 
序 的 目的 是 比较 不 同 的 任务 指派 算法 在 资源 预 留 的 情况 下 的 任务 完成 时 间 与 能 耗 。 该 程序 
开头 的 最 主要 参数 相 比 之 前 两 个 仿真 程序 ,除了 多 了 一 个 适 配 该 程序 的 表明 任务 分 配 策略 
的 常量 外 ,还 多 了 四 个 构建 异 构 环 境 的 数组 ,具体 如 表 4-4 所 示 o 


表 4-4 四 个 构建 异 构 环 境 的 数组 


vms 数组 ,各 类 型 主机 的 虚拟 机 数 
hostMips 数组 ,各 类 型 主机 的 CPU 主 频 
hostRam 数组 ,各 类 型 主机 的 内 存 
hostlo 数组 ,各 类 型 主机 的 IO 
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之 前 我 们 也 提 到 过 ,Helper 类 提供 的 方法 是 公共 方法 , 当 一 些 公共 方法 不 适应 本 程序 
时 ,可 以 另外 在 本 程序 重 载 一 个 。 比 如 ProgressReservedHeterogeneousMain 程序 要 求 的 
是 主机 异 构 , 因 此 Helper 类 的 主机 创建 方法 肯定 不 再 适用 于 本 程序 。 

于 是 ,在 保证 仿真 模拟 程序 共同 的 基本 步 又 不 变 的 情况 下 ,我 们 对 具体 实现 细节 进行 了 
如 下 调整 。 

COD 创建 异 构 主 机 代码 调整 为 List < SimPowerHostReservation > hostList = 
createHostList NUM. HOST); ,该 方法 创建 NUM. HOST 个 主机 ,程序 中 定义 了 四 类 的 
主机 ,不 同类 的 主机 配置 不 同 ,不 同 的 配置 包括 CPU 核 数 , 主 频 ,内 存 ,IO, 能 耗 模型 。 

(2) 创建 虚拟 机 代码 调整 为 vmlist. addAll(createVMsByHostType(brokerld, NUM_ 
HOST) 5 ,该 方法 根据 主机 的 配置 创建 对 应 的 虚拟 机 ,比如 4 核 的 主机 创建 四 个 虚拟 机 ,每 
个 虚拟 机 一 个 核 , 内 存 ,IO 带宽 平均 分 配 。 

(3) 创建 数据 中 心 代 码 调整 为 SimPowerDatacenter datacenter0 — createDatacenter 
("Datacenter0" ,hostList,schedulingInterval, NUM. HOST); ,该 方法 根据 创建 的 异 构 主 
机 列表 hostlist 来 初始 化 数据 中 心 。 

具体 的 核心 代码 如 下 所 示 。 


// 这 四 个 数组 的 大 小 都 是 4, 分 别 决定 了 4 种 主机 的 资源 配置 

//vms 数组 的 元 素 表示 每 个 主机 拥有 的 虚拟 机 数量 

private static int[] vms = (4, 6, 3, 2); 

//bostMips 数组 的 元 素 表示 每 个 主机 的 最 大 mips, mips 越 大 代表 cpu 性 能 越 好 
private static int[] hostMips = (1843, 3067, 2048, 2500}; 

//hostRam 数组 的 元 素 表示 每 个 主机 的 最 大 内 存 数 ,单位 是 MB 

private static int[] hostRam = (4096, 12288, 6144, 4096}; 

//hostIo 数组 元 素 表示 每 个 主机 拥有 的 10 资源 数目 

private static int[] hostIo = (300, 500, 400, 300); 


public static void main(String[] args) throws IOException, URISyntaxException { 
long begin = System.currentTimeMillis(); 
List« Integer» cls = new ArrayList < Integer >(); 
try { 
for (int i = 2000; i<= 8000; i=i+2000) { 
cls. add( i); 
NUM_CLOUDLET = i; 
int num_user = 1; 
Calendar calendar = Calendar. getInstance(); 
boolean trace_flag = false; 
// 初 始 化 clouds im 步骤 跟 之 前 代码 中 的 一 样 
CloudSim. init(num user, calendar, trace flag); 


double schedulingInterval = SCHEDULING INTERVAL; 

// 因 为 要 构造 异 构 的 主机 环境 ,所 以 Helper 类 自 带 方法 不 能 帮 到 我 们 

// 根 据 主机 类 型 分 配 pe 的 数量 和 性 能 (mips) 以 及 主机 的 其 他 资源 配置 

List < SimPowerHostReservation> hostList = createHostList(NUM HOST); 

// 利 用 创建 好 的 异 构 主 机 列表 构建 一 个 数据 中 心 

SimPowerDatacenter datacenter0 = createDatacenter("Datacenter0", 
hostList, schedulingInterval, NUM HOST); 
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SimDatacenterBroker broker = 
Helper.createBroker(CLOUDLET ASSIGN POLICY, hostList); 
int brokerld - broker.getId(); 


List« SimPowerVm» vmlist = new ArrayList < SimPowerVm»(); 

// 异 构 环 境 下 vn 的 创建 要 根据 主机 的 类 型 决定 在 一 个 主机 初始 化 几 个 虚拟 机 
vmlist.addAll(createVMsByHostType(brokerId, NUM HOST)); 

broker. submitVmList(vmlist) ; 


List < SimProgressCloudlet > cloudletList = new 
ArrayList < SimProgressCloudlet >() ; 
String filename = "Cloudlet_8000_2"; 
/ [ByData 这 种 创建 方法 就 是 根据 存储 在 文件 中 的 数据 作为 模板 去 创建 .比如 
// 此 处 的 任务 创建 ,这 些 数据 就 可 以 是 任务 的 长 度 、 带 宽 和 IO 等 
cloudletList. addAll(Helper. createCloudletsByData(brokerId, NUM CLOUDLET, 
filename)); 
broker. submitCloudletList(cloudletList); 
Helper. init(NUM HOST); 
Log. setDisabled(true); 
double lastClock - CloudSim. startSimulation(); 


CloudSim. stopSimulation(); 


List< SimCloudlet > newList = broker.getCloudletReceivedList(); 

String file = "reserved. txt"; 

Helper. outputHostFininshedTime(broker.« SimPowerVm > getVmsCreatedList() ) ; 

Helper. outputCloudletHistory(file, newList) ; 

String utilizationFile = 
"reserved_Utilization_" + NUM_CLOUDLET + "_Algor_" + CLOUDLET ASSI 
GN POLICY + "_" + System. currentTimeMillis() % 30; 

printArguments( broker) ; 

Helper. printResults((PowerDatacenter) datacenter0, vmlist, lastClock, 
"ProgressReservedMain"); 

Log.printLine("Total Power: " + datacenter0.getPower() + 

"W* sec"); 

Log. printLine("ProgressReservedMain finished!"); 
} 
Helper. outputResult("Result_" + DYNAMIC WORKLOAD + "_" + NUM_VM+ "vm " 

+ CLOUDLET ASSIGN POLICY + "R. txt", cls); 

System. out. println("Total Run Time:" + (System. currentTimeMillis() — begin)); 

} catch (Exception e) { 
e. printStackTrace(); 
Log. printLine("Unwanted errors happen"); 


} 
// 根 据 不 同 主机 配置 创建 主机 列表 
private static List < SimPowerHostReservation» createHostList(int hostNumber) { 
List < SimPowerHostReservation> hostList = new 
ArrayList < SimPowerHostReservation >(); 
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// 下 面 的 这 个 数组 存储 的 是 不 同 cpu 的 能 耗 模 型 
PowerModel[] powerModelCpuArray = new PowerModel[4]; 
powerModelCpuArray[0] = new PowerModelSpecPowerlbmX3550XeonX5675() ; 
powerModelCpuArray[1] = new 

PowerModelSpecPowerHpProLiantMlil10G5Xeon3075(); 
powerModelCpuArray[2] = new 

PowerModelSpecPowerHpProLiantM1110G3Pent iumD930( ) ; 
powerModelCpuArray[3] = new 

PowerModelSpecPowerHpProLiantMl110G5Xeon3075(); 
long storage - 1000000; // 主 机 存储 
double staticPowerPercent = 0.01; 


for (int i = 0; i« hostNumber; i++) { 
List«Pe» peList = new ArrayList <Pe>(); 
13 SAK (BM 4) 执 行 取 余 操 作 , 每 4 个 主机 的 配置 是 一 样 的 
int type = i % vms.length; 
// 默 认 一 个 vm 对 应 一 个 核 芯 (PE), 所 以 此 处 根据 虚拟 机 数目 生成 核 芯 
for (int j = 0; j < vms[type]; j++) { 
peList. add(new Pe(j, new PeProvisionerSimple(hostMips[type]))); 
} 
//System. out. println("i:" + i+ "type "+ type +" m:" + hostMips[ type] + 
"//r:" + hostRam[ type] ) ; 
PowerModel powerModelRam = new PowerModelRamSimple(hostRam[type]) ; 
PowerModel powerModello = new PowerModelloSimple(hostIo[type]); 
PowerModel powerModelBw = new PowerModelCubic(100, staticPowerPercent); 
// 照 常 代入 参数 即 可 
hostList. add(new SimPowerHostReservation(i, new 
SimRamProvisionerSimple(hostRam[ type]), 
new SimBwProvisionerSimple(10000), new 
SimIoProvisionerSimple( hostIo[type]), storage, peList, 
new SimVmSchedulerTimeSharedOverSubscription(peList), 
powerModelCpuArray[ type], powerModelRam, powerModello, 
powerModelBw)); 
) 
return hostList; 
) 
// 创 建 数据 中 心 的 代码 其 实 与 之 前 基本 一 样 , 只 是 主机 列表 不 需要 在 该 方法 中 创建 
public static SimPowerDatacenter createDatacenter(String name, List <? extends 
SimPowerHost > hostList,double schedulingInterval, int hostNumber) { 
String arch - "x86", os - "Linux", vmm - "Xen"; 
double time zone - 10.0, cost - 3.0; 
double costPerMem = 0.05, costPerStorage = 0.00, costPerBw = 0.02; 
LinkedList < Storage» storageList = new LinkedList < Storage»(); 
DatacenterCharacteristics characteristics - new DatacenterCharacteristics(arch, os, 
vmm, hostList, time zone,cost, costPerMem, costPerStorage, costPerBw); 
// 最 终 创建 一 个 SimPowerDatacenter 对 象 
SimPowerDatacenter datacenter = null; 
try ( 
datacenter - new SimPowerDatacenter(name, characteristics, new 
PowerVmAllocationPolicyByHost(hostList), 
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storageList, schedulingInterval); 
} catch (Exception e) ( 
e. printStackTrace(); 
fi 


return datacenter; 


} 
// 根 据 主 机 类 型 来 创建 虚拟 机 
public static List < SimPowerVm > createVMsByHostType(int userId, int hosts) { 
List < SimPowerVm> list = new ArrayList <SimPowerVm>(); 
long size = 10000; 
int ram - 512, mips - 1024; 
long bw - 1000, io - 60; 
int pesNumber = 1; 
String vmm - "Xen"; 
SimPowerVm vm = null; 
CloudletCpuAllocator cpuAllocator = null; 
int id - 0; 
for (int i = 0; i< hosts; i++) { 
int type = i % vms. length; 
for (int j = 0; j< vms[type]; j++) { 
// 主 机 内 的 每 个 虚拟 机 除了 mips 外 ,其 他 资源 都 是 按照 虚拟 机 数量 进行 平均 分 配 的 
vm = new SimPowerVm(id**, userId, hostMips[type], pesNumber, 
hostRam[type]/vms[type], hostIo[type]/vms[type], bw, size, 1, vmm, 
new SimProgressCloudletSchedulerDynamicWorkloadReservation(mips, 
pesNumber, new CloudletCpuAllocatorReservation(mips), 
new CloudletRamAllocatorSimple(ram), new 
CloudletloAllocatorSimple(io), new 
CloudletBwAllocatorSimple(bw)), 
5); 
Log. printLine(hostMips[type]); 
list.add(vm); 
} 
h 


return list; 


4.6 云 环境 任务 调度 编程 实践 


4.6.1 云 计算 的 资源 管理 


云 计 算是 一 种 新 的 计算 范 型 ,同时 也 可 以 被 看 作 一 种 服务 。 云 服务 又 可 以 细 分 为 IaaS 
CInfrastructure as a Service, 基 础 设施 即 服务 )、PaaS(Platform as a Service, 平 台 即 服务 ) 和 
SaaS(Software as a Service, 软 件 即 服务 )。 虽 然 存 在 不 同 的 形式 ,但 从 本 质 上 来 说 , 云 计算 
为 基于 互联 网 的 应 用 服务 提供 可 靠 、 高 容错 、 高 可 用 、 可 扩展 的 基础 设施 。 从 用 户 角 度 来 说 ， 
云 计算 提供 了 从 虚拟 机 租赁 到 开发 平台 再 到 云端 应 用 的 多 层面 的 服务 ,省 去 了 搭建 私有 基 
础 设施 的 金钱 与 时 间 成 本 。 而 从 云 服 务 商 (Cloud Service Provider,CSP) 的 角度 说 ,它们 基 


第 4 章 云 计算 编程 实 中 


于 有 限 的 基础 设施 向 大 量 用 户 提 供 资 源 。 所 以 云 服务 商 要 实现 鳃 利 , 就 需要 依赖 高 效 的 资 
源 管理 。 

整个 “ 云 " 可 以 由 多 个 数据 中 心 组 成 ,但 可 以 被 高 度 抽 象 为 一 个 庞大 的 弹性 资源 池 。 资 
源 管理 的 粒度 可 以 是 物理 主机 ,但 随 着 虚拟 化 技术 的 普及 ,虚拟 机 (VM) 成 为 目前 大 部 分 云 
环境 中 资源 管理 的 基本 单元 。 以 VM 为 资源 租赁 单位 以 及 在 VM 中 运用 应 用 程序 有 诸多 
优势 ,包括 提高 了 基础 设施 的 利用 率 、 有 效 隔离 应 用 程序 和 易于 扩展 等 。 在 云 计算 的 资源 管 
理 体系 中 ,虚拟 机 可 以 看 作 一 种 抽象 资源 , 它 在 分 配给 物理 主机 (如 服务 器 ) 前 不 能 作为 任务 
执行 的 载体 ,而 运行 中 的 虚拟 机 代表 相对 固定 的 资源 配额 (比如 2 个 核心 .1G 内存)。 此 外 ， 
虚拟 机 可 以 在 主机 之 间 迁 移 。 图 4-21 为 云 计 算 资 源 管理 体系 的 示意 图 。 如 图 所 示 , 用 户 首 
先 提 交 任 务 到 云端 (一 个 用 户 可 以 有 多 个 任务 ); 在 任务 调度 阶段 ,队列 中 的 任务 按照 设 定 
的 调度 策略 被 分 配给 虚拟 机 ; 最 后 在 虚拟 机 调度 阶段 ,VM 被 分 配 到 特定 的 主机 上 执行 。 


gian 
NN Server 1 
| = VM2 


任务 队列 Task ¢ 


[oae J Server M 
J 


任务 调度 虚拟 机 调度 
图 4-21 云 计算 环境 下 的 资源 管理 


容器 技术 (如 Docker) 的 迅速 发 展 使 得 云 计算 服务 也 出 现 了 新 形式 一 一 容器 即 服 务 
(Container as a Service) , 它 基 于 容器 为 用 户 应 用 程序 编排 资源 ,提供 比 虚拟 机 更 高 的 弹性 
和 敏捷 性 。 但 由 于 容器 在 安全 性 等 方面 的 问题 ,容器 云 还 远 未 普及 ,因此 本 小 节 主 要 介绍 以 
虚拟 机 为 基本 单位 的 云 计算 资源 管理 。 

1. 任务 调度 

用 户 通过 代理 将 任务 提交 到 云端 之 后 ,任务 被 放置 在 队列 中 等 待 调度 。 任 务 调度 是 云 
计算 资源 管理 的 核心 问题 之 一 , 它 很 大 程度 地 决定 了 云 计算 服务 性 能 与 效益 。 总 的 来 说 , 评 
价 云 计算 服务 有 两 个 关键 指标 : 任务 最 终 的 执行 效率 和 集群 资源 的 利用 率 。 任 务 的 执行 效 
率 是 用 户 最 为 关心 的 指标 ,又 可 以 细 分 为 多 个 度量 ,如 完工 时 间 、 花 费 、 响 应 时 间 、 延 误 时 间 、 
等 待 时 间 等 。 资 源 利用 率 则 是 云 服 务 商 关 注 的 首要 优化 目标 ,因为 提高 资源 利用 率 意味 了 
降低 空闲 的 基础 设施 带 来 的 额外 成 本 ,包括 冷却 成 本 和 能 耗 等 。 

任务 调度 是 云 资 源 管理 优化 领域 的 研究 热点 之 一 。 无 论 是 启发 式 的 还 是 基于 搜索 (如 
进化 算法 ) 的 任务 调度 策略 ,实质 上 都 是 关于 任务 集合 到 集群 资源 的 映射 策略 。 熟 悉 算 法 的 
读者 可 能 会 发 现 : 如 果 忽 略 虚 拟 化 层 , 即 将 任务 直接 分 配 到 物理 服务 器 上 ,那么 任务 调度 问 
题 与 经 典 的 装 箱 问 题 十 分 类 似 一 一 将 2 COzEN+) 个 货物 装 入 mm (mmEN+) 个 箱子 中 。 虽 然 
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本 质 上 类 似 , 但 任务 调度 比 装 箱 问题 更 加 复杂 。 一 方面 ,任务 资源 需求 是 多 维 的 (如 CPU 核 

心 数 、 内 存 大 小 和 带宽 ) ,并 任务 可 能 带 有 优先 级 和 响应 时 间 约 束 ; 另 一 方面 ,任务 调度 的 优化 

目标 往往 不 是 单一 的 ,需要 同时 考虑 总 完工 时 间 、 服 务 率 和 总 能 耗 等 指标 。 实 际 上 ,由 于 虚拟 

化 层 的 存在 ,我 们 往往 可 以 简化 任务 调度 问题 ,在 任务 调度 策略 上 重点 关注 任务 到 虚拟 机 的 映 

射 ( 见 图 4-22) ,并 将 虚拟 机 到 主机 的 映射 作为 另 一 个 单独 的 问题 一 一 虚拟 机 调度 来 研究 5 。 
虚拟 机 集群 


1-core 


任务 调度 策略 GEM 
running 
e VM1 25Watts 


2-core 

2G RAM 

idle 
VM2 20Watts 


= 1-core 
el 1G RAM 
running 


VMN 30Watts 


任务 队列 Task t 


图 4-22 虚拟 化 云 计算 环境 中 的 任务 调度 


2. 虚拟 机 调度 

虚拟 机 只 有 被 分 配给 具体 的 主机 之 后 才能 启动 并 开始 执行 任务 。 虚 拟 机 调度 策略 是 关 
于 如 何 将 VM 映射 到 物理 主机 上 的 一 类 策略 ,又 可 以 分 为 VM 放置 策略 和 VM 迁移 策略 。 
VM 放置 是 关于 为 虚拟 机 选择 宿主 机 的 过 程 ,而 VM 迁移 是 指 将 运行 中 的 虚拟 机 从 原本 的 
答 主 机 迁移 到 另 一 台 宿 主机 。 虚 拟 机 的 迁移 可 能 是 被 动 触发 的 , 当 宿 主机 出 现 过 载 或 故障 ， 
该 主机 上 的 VM 就 需要 被 迁 出 以 降低 负载 或 避免 宕 机 引起 的 服务 不 可 用 。 云 环境 中 的 调 
度 器 也 可 以 主动 地 迁移 虚拟 机 ,比如 将 多 台 主 机 上 的 VM 迁移 到 同一 台 主 机 上 ,然后 关闭 
空闲 的 多 余 主 机 以 实现 节能 。 图 4-23 所 示 为 虚拟 机 调度 的 过 程 ,其 中 VM1 创建 之 后 被 放 
置 到 主机 A E; VM2 原本 在 主机 C 上 运行 ,但 根据 虚拟 机 调度 策略 , 它 在 当前 时 刻 被 迁移 
到 主机 B。 虚 拟 机 调度 策略 的 应 用 对 防止 主机 过 载 \ 提 高 主机 资源 利用 率 和 实现 集群 容错 


VMI 
sal 1 <3 fT 
VM 放置 /迁移 策略 
1 1 1 1 
MET 
VM2 

Hypervisor Hypervisor Hypervisor 

主机 A 主机 B 主机 C 


图 4-23 云 计算 环境 中 的 虚拟 机 调度 策略 
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4.6.2. 云 任务 调度 模拟 实验 


1. 基本 内 容 

使 用 高 级 编程 语言 实现 一 个 任务 调度 算法 ,并 编写 程序 简单 模拟 一 个 云 计 算 环 境 (包括 
物理 主机 、 虚 拟 机 和 任务 等 ) ,利用 该 模拟 程序 测试 所 开发 的 任务 调度 算法 。 

要 求 : 所 涉及 的 任务 调度 算法 至 少 有 一 个 优化 目标 ,例如 减少 总 完工 时 间 减少 平均 响 
应 时 间或 降低 总 能 耗 等 。 

2. 调度 算法 设计 

本 小 节 以 一 个 节能 任务 调度 算法 为 例 ,介绍 云 环境 中 任务 调度 的 设计 与 实现 。 降 低 云 
计算 数据 中 心 的 能 耗 是 当前 的 热点 研究 话题 ,任务 调度 过 程 中 任务 和 虚拟 机 匹配 策略 是 影 
响 集 群 总 能 耗 的 关键 因素 。 本 小 节 在 经 典 的 启发 式 算法 一 一 Min-Min55 的 基础 上 ,实现 了 
一 个 以 总 能 耗 为 优化 目标 的 任务 调度 算法 EnergyMinMin, 

Min-Min 算法 是 应 用 在 任务 分 配 问题 上 的 典型 启发 式 算 法 , 它 在 预先 评估 整个 执行 时 
长 矩阵 (行为 任务 , 列 为 虚拟 机 ) 的 基础 上 ,实现 以 减少 平均 响应 时 间 和 完工 时 间 为 目标 的 任 
务 调 度 。Min-Min 算法 不 能 保证 最 优 分 配 (事实 上 任务 分 配 是 NP- 完 全 问题 ) ,但 作为 一 种 
启发 式 算法 , 它 的 实现 很 简单 并 且 比 很 多 调度 算法 更 加 有 效 中 9。 本 节 介 绍 的 
EnergyMinMin 以 降低 任务 集合 总 执行 能 耗 为 优化 目标 ,预先 评估 一 个 能 耗 矩 阵 ,根据 矩阵 
采用 与 Min-Min 类 似 的 原则 进行 任务 分 配 。 为 了 简化 问题 ,这 里 假设 任务 和 VM 是 “一 对 
一 ”的 映射 ,并 且 不 考虑 任务 的 SLA(Service Level Agreement) 约 束 。 

这 里 使 用 Java 实现 了 上 述 的 EnergyMinMin 算法 以 及 一 个 简单 的 云 计 算 模拟 程序 , 任 
务 分 配 的 代码 实现 在 EnergyMMScheduling 方法 中 ,该 方法 的 主要 代码 如 下 : 


/ax 
EnergyMinMin heuristic task scheduling algorithm 
output: mapping- matrix[num of task][num of vm] 
@param vnlist List of Virtual Machines 
@param number of vm Number of VMs 
@param tasklist List of tasks 
(param number of task Number of tasks 
* @param tasks to vms matrix initial matrix 
*/ 
static public double energyMMScheduling( 
VirtualMachine [] vnlist, 
int number of vm, 
Task [] tasklist, 
int number of task, 
int [][] tasks to vms matrix){ 


Sp ek £3 #2 sy £c 


//indicates VM’ s availability 

int [] used_vm_list = new int[number_of_vm]; 

//initialize 

for(int k = 0;k<number_of_vm;k++) { 
used vm list[k] = -1; 
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) 
int[] allocated task list - new int[number of task]; 
//initialize 
for(int k = 0;k<number_of_task;k++){ 
allocated_task_list[k] = -1; //1=allocated, -1- no yet 


tasklist[k]. setEnergy(0.0) ; 
) 
//initial average scheduling delay 
double avg delay = 0.0; 
int selected vm index - 0; 
int selected task index - 0; 
double minPower - MaxDouble; 
double minEnergy - MaxDouble; 
double t0 = System. nanoTime(); 
//1oop until all tasks are successfully scheduled 
while('allTaskFulfilled(allocated task list, number of task))( 
selected vm index = -1; 
selected task index - -1; 
minPower - MaxDouble; 
minEnergy = MaxDouble; 
//scan the whole energy matrix to spot the minimal 
for(int t-0;t« number of task;t**)( 
if(allocated task list[t] != 一 1) 
continue; 


Task task - tasklist[t]; 
for(int v= 0;v« number of vm;v-*)( 
//check vn's availability 
if(used vm list[v] != -1) 
continue; 
VirtualMachine vm = vmlist[v]; 


//check first whether the match is feasible 
//i.e., the VM has sufficient resource 
if(!feasibleMatch(vm, task) ) 
continue; 

//£ind the min element in the whole matrix, 
//which is the fundamental rationale of MinMin 
if (vm. getDynamicPower()« minPower)( 

minPower = vm.getDynamicPower(); 

selected_vm_index = v; 

selected_task_index = t; 

//calculate energy consumption 

minEnergy = minPower * task. getExeTime() ; 


//allocation of this task 
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used vm list[selected vm index] = 1; 

allocated task list[selected task index] = 1; 

ks to vms matrix[selected task index][selected vm index] = 1; 
tasklist[selected task index].setEnergy(minEnergy); 


/ [record scheduling delay 
avg delay += (System.nanoTime() — t0)/ 1000000; //ms 
)//end while 
avg delay = avg delay/number of task; 
return avg delay; 
j; 
"n 
* Judge whether a VM has sufficient resource for running a task 
* @param vm the VM 
* @param task the task 
* @return 
*/ 
private static boolean feasibleMatch(VirtualMachine vm, Task task) { 
if (vm. cpu> = task.cpu need && 
vm, ram > = task. ram_need && 
vm. disk > = task. disk_need && 
vn. bandwidth > = task. bandwidth_need) { 
return true; 
b 
else( 
return false; 
l 
) 


上 述 代 码 片段 中 ,while 循环 检查 是 否 还 有 未 调度 的 任务 ,如 果 有 , 则 通过 两 重 for 循环 
检查 所 有 待 调度 任务 到 所 有 可 用 虚拟 机 上 的 预 估 能 耗 ,其 中 预 估 能 耗 三 虚拟 机 功 耗 Xx 任务 
执行 时 长 ,并 每 次 选择 能 耗 最 低 的 任务 分 配 。 将 任务 分 配给 虚拟 机 必须 保证 满足 资源 约束 ， 
feasibleMatch(VirtualMachine,，Task) 方 法 对 分 配 可 行 性 进行 检查 (虚拟 机 的 资源 配额 必 


AKA 


F 等 于 任务 的 需求 ), 如 果 资 源 条 件 不 满足 , 则 该 方法 返回 false。 由 于 篇 幅 的 限制 ， 


Task 和 VirtualMachine 等 Java 类 的 相关 代码 不 在 这 里 给 出 。 

3. 实验 程序 及 结果 

笔者 在 Java 编写 的 云 环境 模拟 程序 中 测试 上 述 的 EnergyMinMin 任务 调度 算法 ,同时 
在 任务 总 能 耗 和 平均 调度 延迟 这 两 个 度量 上 与 First-Fit 调度 算法 进行 对 比 。 在 模拟 环境 


中 创建 了 一 个 包含 16 个 VM 实例 的 虚拟 机 集群 ,虚拟 机 资源 配置 如 表 4-5 所 示 。 


R45 任务 调度 模拟 实验 中 的 虚拟 机 配置 列表 


VM 编号 CPU 配额 内 存 大 小 磁盘 配额 带宽 峰值 功 耗 
(GHz) (GB) (GB) (GB) (Watts) 

6.2 2.0 30.0 0.5 27.0 

12.4 4.0 10.0 0.5 36.9 

3.1 2.0 50.0 0.5 18.9 
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mis CPU 配额 内 存 大 小 磁盘 配额 带宽 峰值 功 耗 
(GHz) (GB) (GB) (GB) (Watts) 
3 3.1 2.0 30.0 1.0 18.8 
4 12.4 4.0 10.0 1.0 37.4 
5 6.2 4.0 75.0 0.5 26.9 
6 12.4 4.0 10.0 1.0 37.1 
7 6.2 2.0 30.0 2.0 27.7 
8 6.2 4.0 10.0 1.0 27.4 
9 6.2 4.0 75.0 1.0 27.6 
10 6.2 4.0 30.0 1.0 26.8 
11 3.1 1.0 50. 0 1.0 17.5 
12 6.2 4.0 10.0 0.5 27.4 
13 6.2 2.0 75.0 0.5 26.9 
14 3.1 1.0 30.0 2.0 18.0 
15 6.2 1.0 30.0 1.0 23.6 
同时 创建 了 6 个 任务 实例 , 见 表 4-6. 
R46 任务 调度 模拟 实验 中 的 任务 列表 
任务 编号 CPU 需求 内 存 需求 磁盘 需求 带宽 需求 预计 执行 时 长 
(GHz) (GB) (GB) (GB) (s) 
0 10.0 4.0 1.0 0.0 20 
1 3.0 1.0 50.0 0.0 60 
2 6.0 2.0 10.0 1.0 40 
3 10.0 2.0 0.0 0.0 30 
1 6.0 1.0 30.0 1.0 30 
5 3.0 1.0 1.0 1.0 60 


初始 化 虚拟 机 集群 和 任务 集合 之 后 ,分 别 在 模拟 环境 中 调用 EnergyMinMin 和 First- 
Fit 对 应 的 任务 调度 函数 ,模拟 程序 的 主 函数 和 运行 代码 如 下 : 
public static void main(String args[]){ 
//experimental setup 
final int number of tasks - 6; 
final int number of vms - 16; 
Random rand - new Random(); 
int [][] tasks to vms matrix = new int[number of tasks][number of vms]; 
//allocation matrices 
int[][] tasksToVMsMatrixEMM - new int[number of tasks][number of vms]; 


int [][] tasksToVMsMatrixFF = new int[number of tasks][number of vms]; 


//netrics 
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double avgDelay = 0.0; 
double totalEnergy = 0; 


//initialize allocation matrices 
for(int t-0;t« number of tasks;t**)( 
for(int v= 0;v<number_of_vms;v++){ 
tasksToVMsMatrixEMM[t][v] = 0; 
tasksToVMsMatrixFF[t][v] = 0; 


//create VM instances 

VirtualMachine [] vmlist = createVMList(); 
//create tasks 

Task [] tasklist = createTaskList(); 


/* 
* use EnergyMinMin to schedule the tasks 
*/ 
avgDelay = VPEGS algorithms. energyMMSchedul ing(vmlist, 
number_of_vms, tasklist, number_of_tasks, tasksToVMsMatrixEMM) ; 


//show result 
System. out.println("\t* * * * + X * X RRR RR RRR RR HRN 十 
"ow Gk ee eee ee e M) 
System. out. println("EnergyMinMin: "); 
System.out.println("vm NO. 01234567 89 ABCDEF"); 
for(int t = 0;t<number_of_tasks;t++){ 
System. out. print("task"+t+":"); 
for(int v= 0;v<number_of_vms;v++){ 
System. out. print(tasksToVMsMatrixEMM[t][v] +" "); 


) 
System.out.println(" 一 > task energy =" + (int)tasklist[t]. task energy); 
totalEnergy += tasklist[t].task energy; 
//reinitialize 
tasklist[t].task energy = 0; 
} 
//show the total 
System. out. println("\t\t\t\t\t\t\ttotally: "+ (int)totalEnergy +" Joules"); 
System. out. print1n("\t\t\t\t\t\t\tavg. delay: "+ avgDelay +" ms"); 
totalEnergy = 0; 


/* 
* use "First —- Fit" to schedule the tasks 
*/ 
avgDelay = MatchedAlgorithms. firstFitAllocation(vmlist, number_of_vms, 
tasklist, number of tasks, tasksToVMsMatrixFF); 
//show result 
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System. out. println("\t* * * * * Xx * X * X x x Xx*x*xxxx" 
"OX X X X X X X X X RRR"); 
System.out.println("First- Fit: "); 
System.out.println("vm NO. 0123456789 ABCDEF"); 
for(int t-0;t« number of tasks;t**)( 
System. out. print("task" * t * ": "); 
for(int v= 0;v<number_of_vms;v++){ 
System. out. print(tasksToVMsMatrixFF[t][v] +" "); 


} 
System. out. println(" 一 > task energy =" + (int)tasklist[t].task energy); 
totalEnergy += tasklist[t].task energy; 
//reinitialize 
tasklist[t].task energy = 0; 
} 
//show the total 
System. out. print1n("\t\t\t\t\t\t\ttotally: "+ (int)totalEnergy +" Joules"); 
System. out. println("\t\t\t\t\t\t\tavg. delay: "+ avgDelay +" ms"); 
totalEnergy = 0; 
} 


E RC E FG) s HE BEAU A B np D A SE BS ee ES tae (E 48 2 BOR E RH OE BETTE Hb 
(平均 调度 延迟 和 总 能 耗 ) 以 及 虚拟 机 和 任务 数量 等 ,其 中 本 实验 设 定 虚拟 机 数 和 任务 数 分 
别 为 16 台 和 6 个 ( 见 表 4-4 和 表 4-5)。 然 后 分 别 调用 createVMList 和 createTaskList 方法 
创建 虚拟 机 集合 和 任务 集合 。 首 先 测试 的 是 EnergyMinMin 任务 分 配 算法 的 效果 一 一 将 初 
始 化 过 后 的 VM 集合 .任务 集合 ,初始 分 配 和 矩阵 等 参数 传人 energyMMScheduling 方法 ,该 
方法 将 调度 结果 保存 在 传 入 的 分 配 和 矩阵 中 ,并 返回 一 个 double 类 型 的 任务 平均 调度 延迟 ， 
相关 代码 如 下 面 所 示 。 重 新 初始 化 相关 环境 之 后 ,调用 firstFitAllocation 方法 以 测试 用 于 
对 照 的 First-Fit 任务 分 配 算法 。 最 后 程序 分 别 输出 两 个 任务 调度 算法 的 分 配 结果 和 统计 
信息 。 


/ xx 

* create a designated number of VMs 

* @return a list of VMs 

*/ 

private static VirtualMachine [] createVMList(){ 

//create VM instances 
VirtualMachine [] vmlist = new VirtualMachine[ number_of_vms]; 
vmlist[0] = new VirtualMachine(6.2, 2.0, 30.0, 0.5, 27.0); 
vmlist[1] = new VirtualMachine(12.4,4.0, 10.0, 0.5, 36.9); 
vmlist[2] = new VirtualMachine(3.1, 2.0, 50.0, 0.5, 18.9); 
vmlist[3] = new VirtualMachine(3.1, 2.0, 30.0, 1.0, 18.8); 
vmlist[4] = new VirtualMachine(12.4,4.0, 10.0, 1.0, 37.4); 
vmlist[5] = new VirtualMachine(6.2, 4.0, 75.0, 0.5, 26.9); 
vmlist[6] = new VirtualMachine(12.4,4.0, 10.0, 1.0, 37.1); 
vmlist[7] = new VirtualMachine(6.2, 2.0, 30.0, 2.0, 27.7); 
vmlist[8] = new VirtualMachine(6.2, 4.0, 10.0, 1.0, 27.4); 
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vmlist[9] = new VirtualMachine(6.2, 4.0, 75.0, 1.0, 27.6); 


vmlist[10] = 
vmlist[11] = 
vmlist[12] = 
vmlist[13] 
vnlist[14] 
vnlist[15] 


return vmlist; 


"E 


new VirtualMachine(6.2, 4.0, 30.0, 1.0, 26.8); 
new VirtualMachine(3.1, 1.0, 50.0, 1.0, 17.5); 
new VirtualMachine(6.2, 4.0, 10.0, 0.5, 27.4); 
new VirtualMachine(6.2, 2.0, 75.0, 0.5, 26.9); 
new VirtualMachine(3.1, 1.0, 30.0, 2.0, 18.0); 
new VirtualMachine(6.2, 1.0, 30.0, 1.0, 23.6); 


* create a designated number of tasks 
* @return the task list 


*/ 


private static Task [] createTaskList() { 
// create task instances 
Task [] tasklist = new Task [number of tasks]; 


tasklist[0] - 
tasklist[1] = 
tasklist[2] = 
tasklist[3] = 
tasklist[4] = 
tasklist[5] = 


new Task(10, 4, 1, 0, 20); 
new Task(3, 1, 50, 0, 60); 
new Task(6, 2, 10, 1.0, 40); 
new Task(10, 2, 0, 0, 30); 
new Task(6, 1, 30, 1.0, 30); 
new Task(3, 1, 1, 1.0, 60); 


return tasklist; 


BEIT IAT Bi Her PERI 2p BC EB ETT BAR Mn IE]. 4-24 所 示 。 其 中 虚拟 机 编号 以 
上 六 进 制 数列 出 ,矩阵 中 的 “1” 代 表 所 在 行 对 应 的 任务 分 配给 所 在 列 对 应 的 VM 上 执行 , 例 


如 EnergyMinMin 算法 最 


{fl Problems @ Javadoc 


终 将 编号 为 0 的 任务 调度 到 编号 为 1 的 VM 上 执行 。 


fà) Declaration © Console = $ Call Hierarchy | a od | 


«terminated» SchedulingTest [Java Application] E\programs files VDK\jre\bin\javaw.exe (2017 年 8 月 18 日 上 午 9:30: 


EnergyMinMin: 
vm N0. 0 1 


eee eee 


-»task energy=738 
-»task energy-1050 


->task energy-1113 
-»task energy-708 
-»task energy-1080 
totally: 5761 Joules 
avg. delay: 0.049343500000000005 ms 


ee ee re ee es 


n 
23456789ABCDEF 
000000000000909 
000000000100900 
00000000100000 ->task energy-1072 
0000100000090909 
@0000000000001 
00000000000010 


-»task energy-738 
-»task energy-1134 


->task energy-1113 
-»task energy-831 
-»task energy-1128 
totally: 6440 Joules 
avg. delay: 0.013487666666666667 ms 


@123456789ABCDEF 
0100000000000000 
0010000000000000 

task: 00 00 10 00 0 0 0 0 0 0 0 €. ->task energy-1496 
0000001000000000 
0000000100000000 
0001000000000000 


图 4-24 EnergyMinMin 和 First-Fit 的 任务 调度 结果 
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从 任务 总 能 耗 与 调度 平均 延迟 的 数据 统计 结果 可 以 看 出 : 在 本 小 节 设 计 的 实验 环境 
中 ,EnergyMinMin 相 比 First-Fit 任务 调度 策略 节约 了 679 焦耳 的 电能 ,代价 是 增加 了 任务 
平均 调度 延迟 。 


习题 


1. 试 说 明基 于 cloudsim 如 何 实现 用 户 自 定义 的 虚拟 机 调度 算法 。 

2. 试 说 明基 于 cloudsim 如 何 实现 用 户 自 定义 的 任务 调度 算法 。 

3. 编程 题 : 编写 一 个 程序 ,创建 一 个 包含 两 台 主机 的 数据 中 心 , 每 个 台 主机 拥有 四 个 
核 ,多 个 虚拟 机 。 提 交 N 个 任务 给 云 数据 中 心 ,这些 任 务 长 度 服 从 均匀 分 布 ,打印 输出 任务 
长 度 与 任务 运行 情况 。 

4. 开放 程序 设计 题 : 设计 一 个 静态 的 虚拟 机 放置 算法 ,只 考虑 CPU 资源 ,针对 不 同 虚 
拟 机 的 负载 高 峰 出 现在 不 同 的 时 间 利 用 其 互补 性 来 提高 主机 CPU 利用 率 。 负 和 载 数据 采用 
Cloudsim 自 带 的 PlantLab 的 CPU 利用 率 数 据 , 路 径 为 cloudsim-3. 0\examples\workload\ 
planetlab。( 提 示 : 每 个 负载 文件 带 有 288 个 历史 CPU 利用 率 的 采样 点 ,代表 一 个 虚拟 机 
的 历史 利用 率 , 根 据 虚 拟 机 的 利用 率 ,将 多 个 虚拟 机 放置 在 主机 上 ,使 得 所 有 主机 的 平均 历 
史 利 用 率 最 小 。 需 要 扩展 VmAllocationPolicy 类 来 实现 虚拟 机 分 配 算法 ,扩展 Vm 类 来 存 
储 历史 利用 率 数 据 ,通过 Java 的 文件 IO 来 读 取 负载 文件 .) 

5. 任务 调度 编程 题 : 如 图 4-25 所 示 ,main scheduler 是 主 调度 器 , 主 调度 服务 器 每 分 钟 
或 每 秒 钟 可 以 调度 U 个 任务 ,同时 服务 器 的 任务 队列 的 缓冲 区 设置 长 度 为 玉 , 即 任务 到 达 
后 ,在 TU 的 调度 速度 下 最 多 有 K 个 在 等 候 调 度 , 若 多 余 的 则 舍 去 (针对 每 个 任务 集 计 算 被 含 
去 的 个 数 ) 。 

和 为 任务 到 达 是 服从 的 泊 松 分 布 , 即 每 分 钟 或 每 秒 钟 到 达 任 务 的 个 数 ; 

P, 为 将 这 个 任务 按 随 机 的 概率 分 配 到 执行 服务 器 Si 中 (物理 机 ); 

Si 为 物理 服务 器 ,每 个 服务 器 具有 Ci 个 CPU 核 及 运算 速度 fi( 即 一 个 CPU 可 以 用 一 
个 VM 代替 ), 即 每 台 服 务 器 (物理 机 ) 配 置 Ci 个 VM( 每 个 VM 的 处 理 能 力 都 一 样 ,但 不 同 
的 服务 器 的 VM 处 理 能 力 是 不 同 的 ) ,此 时 每 台 机 子 可 以 同时 处 理 Ci 个 任务 , 若 任务 到 达 ， 
所 有 的 VM 都 在 处 理 任务 时 , 则 任务 在 Si 服务 器 的 任务 队列 中 等 候 。 

任务 的 描述 : 每 个 任务 就 是 一 个 简单 的 指令 数 , 服 从 入 值 为 A 的 指令 数 的 指数 分 布 ,每 
个 任务 在 每 个 VM 的 执行 时 间 就 是 等 于 : 指令 数 /运算 速度 fi 

调度 过 程 : 调度 过 程 都 是 遵循 先 来 先 服务 原则 。 

CD 主 调度 器 将 任务 按 随机 的 概率 分 配 到 第 i 台 物 理 机 上 执行 ,其 调度 的 速度 是 每 分 钟 
或 每 秒 钟 (每 时 间 单位 ) 为 U 个 ,由 物理 机 中 空闲 的 VM 负责 执行 ,车 对 应 的 物理 机 中 的 
VM 都 忙 , 则 该 任务 等 待 ; 

(2) 每 台 服 务 器 (物理 机 ) 对 到 达 的 任务 分 配 到 空闲 的 VM 执行 ,车 对 应 的 物理 机 中 的 
VM 都 忙 , 则 该 任务 等 待 ; 

(3) 任务 流 : 任务 按 服从 的 泊 松 分 布 到 达 ,任务 中 要 执行 的 指令 数 服从 A 的 指数 分 布 。 

程序 设计 主要 任务 : 按 上 述 模式 配置 云 数 据 中 心 ,每 次 的 模拟 是 生成 n 个 任务 (任务 中 
要 执行 的 指令 数 服从 A 的 指数 分 布 ) ,例如 n=10 万 , 按 上 述 的 调度 分 配 到 服务 器 上 执行 ， 
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统计 每 台 服 务 器 (物理 机 ) 执 行 的 时 间 ( 每 个 任务 离开 物理 机 的 时 刻 减 去 每 个 任务 从 进入 物 
理 机 的 时 刻 , 即 为 每 个 任务 在 系统 中 的 消耗 时 间 ,消耗 时 间 减 去 任务 的 执行 时 间 一 即 指令 
数 /运算 速度 f, 即 为 每 个 任务 在 系统 中 等 待 的 时 间 ) ,统计 处 每 台 服 务 器 的 所 有 任务 的 消耗 
时 间 的 平均 值 , 等 待 时 间 的 平均 值 ,队列 中 等 待 被 调度 的 任务 个 数 的 平均 值 ( 即 每 个 时 间 单 
位 内 任务 个 数 的 平均 值 ) 。 


Execution 


server 
cg 
Mis E28 0) 
tee) 
入 H | £ ran 
ES | m [s Iz © @ Le 
x 1 jue - 
Balance m i | 8 fa 
! controller. | ^ uo Sry: (i) 
L__ by Weep 00. " Konne —-@ 
F 调度 器 的 队列 系统 s 任务 执行 的 队列 系统 - 


图 4-25 任务 调度 示意 图 


第 今 音 


云 存 储 技术 


5.1 存储 基础 知识 


本 章 在 介绍 存储 组 网 、RAID、 磁 盘 热 备 . 快 照 ` 分 级 存储 等 存储 知识 的 基础 上 ,重点 阐 
述 了 云 存 储 概念 和 技术 原理 ,然后 讨论 了 对 象 存储 技术 ,最 后 展望 存储 技术 的 发 展 趋势 。 


5.1.1 存储 组 网 形态 


1. 存储 重要 历史 回顾 

存储 技术 是 计算 机 的 核心 技术 之 一 ,计算 机 的 存储 技术 从 最 早 的 硬盘 发 展 到 网 络 存储 、 
虚拟 化 存储 等 技术 ,总 的 趋势 是 存储 容量 和 IO 速度 的 不 断 增加 (如 图 5-1 所 示 )。 当 然 , 随 
着 信息 技术 的 发 展 ,存储 行业 涌现 出 新 的 存储 技术 ,例如 固态 硬盘 、 云 存储 等 。 下 面 简要 回 
顾 一 下 存储 技术 的 重要 历史 。 

(1) 1956 年 一 一 第 一 台 硬 盘存 储 器 

世界 上 第 一 台 硬 盘存 储 器 IBM 350 RAMAC 诞生 ,当时 它 的 总 容量 只 有 5MB, 但 总 共 
使 用 了 50 个 直径 为 24 英寸 的 磁盘 。 

(2) 1987 年 一 一 RAID 技术 出 现 

加 州 柏 克 大 学 的 三 位 人 员 发 表 了 名 为 “磁盘 阵列 控制 器 研究 ”的 论文 ,正式 提 到 了 
RAID 也 就 是 磁盘 阵列 控制 器 ,论文 提出 廉价 的 5. 25" 及 3. 5 "的 硬盘 也 能 如 大 机 器 上 的 8" 盘 
般 提供 大 容量 、 高 性 能 和 数据 的 一 致 性 ,并 详 述 了 RAIDI 至 5 的 技术 。 

(3) 1994 年 一 一 网 络 存储 的 时 代 

SAN 技术 正式 出 现 (ANSI 标准 组 织 通 过 了 第 一 个 版 本 的 光纤 通道 SAN) ,并 迅速 在 数 
据 茄 刻 型 企业 中 获得 广泛 应 用 ,而 由 此 我 们 也 正式 迈 人 了 网 络 存储 的 时 代 。 
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磁盘 阵列 


10 速 度 


o 存储 容量 
图 5-1 存储 发 展 


2. 网 络 存储 的 发 展 

网 络 存储 的 应 用 从 网 络 信息 技术 诞生 的 那天 就 已 经 开始 ,应 用 的 领域 随 着 信息 技术 的 
发 展 而 不 断 增加 。 如 图 5-2 所 示 ,根据 服务 器 类 型 可 以 将 存储 分 为 : 封闭 系统 的 存储 (主要 
指 大 型 机 ) 和 开放 系统 的 存储 ( 指 基于 包括 Windows, UNIX, Linux 等 在 内 的 操作 系统 的 服 
务 器 ) 。 其 中 开放 式 系统 的 存储 可 以 分 为 直 连 式 存储 (DAS,Direct-Attached Storage) 和 网 
络 存储 (FAS,Fabric-Attached Storage)。 根 据 组 网 形式 不 同 ,当前 三 种 主流 存储 技术 或 存储 解 
决 方案 为 : 直 连 式 存储 (DAS) ,存储 区 域 网 络 (SAN) 网络 接 入 存储 (NAS) ,如 图 5-3 所 示 。 


封闭 系统 的 存储 (大 型 机 
内 置 存 储 
Direct-Attached Storage 
rm 直 连 式 存储 (DAS) 
外 挂 存储 Network-Attached Storage 
Fabric-Attached Storage | 网 络 接 人 存储 CNAS) 
网 络 存储 (FAS) Storage AreaNetwork 
存储 区 域 网 络 (SAN) 
图 5-2 存储 分 类 
DAS SAN NAS 
Application Application 
Server Server Application 
Server 
File System File System 
SCSI, FC FC Switch Ethernet 
JBOD Switches 
g File System || File System 
RAID RAID RAID RAID 


5-3 组 网 形式 
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DAS(Direct Attached Storage) 即 直接 连接 存储 ,是 指 将 存储 设备 通过 SCSI 接口 或 光 
纤 通道 直接 连接 到 一 台 计 算 机 上 。 直 连 式 存储 (DAS) 依 赖 服务 器 主机 操作 系统 进行 数据 
的 IO 读 写 和 存储 维护 管理 ,数据 备份 和 恢复 要 求 占用 服务 器 主机 资源 (包括 CPU. IR AE IO 
等 ) ,数据 流 需要 回流 主机 再 到 服务 器 连接 着 的 磁带 机 ( 库 ) ,数据 备份 通常 占用 服务 器 主机 
资源 20% 一 30%。 直 连 式 存储 的 数据 量 越 大 ,备份 和 恢复 的 时 间 就 越 长 ,对 服务 器 硬件 的 
依赖 性 和 影响 就 越 大 。 

将 存储 器 从 应 用 服务 器 中 分 离 出 来 ,进行 集中 管理 。 这 就 是 所 说 的 存储 网 络 (Storage 
Networks)。 又 采取 了 两 种 不 同 的 实现 手段 , 即 NASCNetwork Attached Storage) 网 络 接 人 
存储 和 SAN(Storage Area Networks) 存 储 区 域 网 络 。 

NAS(Network Attached Storage) 即 网 络 连接 存储 ,即将 存储 设备 通过 标准 的 网 络 拓 
扑 结构 (如 以 太 网 ) ,连接 到 一 群 计 算 机 上 。NAS 是 部 件 级 的 存储 方法 , 它 的 重点 在 于 帮助 
工作 组 和 部 门 级 机 构 解 决 迅速 增加 存储 容量 的 需求 。 需 要 共享 大 型 CAD 文档 的 工程 小 组 
就 是 典型 的 例子 。 

存储 区 域 网 络 (Storage Area Network,SAN) 采 用 光纤 通道 (Fibre Channel, 简 称 FC) 
技术 ,通过 光纤 通道 交换 机 连接 存储 阵列 和 服务 器 主机 ,建立 专用 于 数据 存储 的 区 域 网 络 。 
SAN 经 过 十 多 年 历史 的 发 展 ,已 经 相当 成 熟 ,成 为 业界 的 事实 标准 (但 各 个 厂商 的 光纤 交换 
技术 不 完全 相同 ,其 服务 器 和 SAN 存储 有 兼容 性 的 要 求 ) 。 

NAS 和 SAN 最 本 质 的 不 同 就 是 文件 管理 系统 在 哪里 ,SAN 结构 中 ,文件 管理 系统 
(FS) 还 是 分 别 在 每 一 个 应 用 服务 器 上 ; 而 NAS 则 是 每 个 应 用 服务 器 通过 网 络 共享 协议 (如 
NFS、CIFS) 使 用 同一 个 文件 管理 系统 。 换 句 话说 ,NAS 和 SAN 存储 系统 的 区 别 是 NAS 
有 自己 的 文件 系统 管理 。 

3. DAS 


DAS(Direct Attached Storage, 直 接连 接 存储 ) 是 指 将 存储 设备 通过 SCSI 接口 或 光纤 
通道 直接 连接 到 一 台 计 算 机 上 。SCSI 的 英文 名 称 是 “Small Computer System Interface”, 
中 文 翻译 为 “小 型 计算 机 系统 专用 接口 ”; 顾名思义 ,这 是 为 了 小 型 计算 机 设计 的 扩充 接口 ， 
它 可 以 让 计算 机 加 装 其 他 外 设 设备 以 提高 系统 性 能 或 增加 新 的 功能 ,例如 硬盘 光驱、 扫描 
仪 等 。 

如 图 5-4 所 示 ,DAS 将 存储 设备 (RAID 系统 、 磁 带 机 和 磁带 库 .光盘 库 ) 直 接连 接 到 服 
务 器 ; 是 最 传统 的 、 最 常见 的 连接 方式 ,容易 理解 .规划 和 实施 。 但 是 DAS 没有 独立 操作 系 
统 , 也 不 能 提供 跨 平 台 的 文件 共享 ,各 平台 下 数据 需 分 别 储存 ,上 且 各 DAS 系统 之 间 没 有 连 
接 ,数据 只 能 分 散 管理 。DAS 的 优 缺点 如 表 5-1 所 示 。 


应 用 


服务 器 


Block 1/0 
SCSI 协 议 Ey 


5-4 DAS 


Peet 


表 5-1 DAS 的 优 缺 点 
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D 连接 简单 : 集成 在 服务 器 内 部 ; 点 到 | D 有 限 的 扩展 性 : SCSI 总 线 的 距离 最 大 25m; 最 多 15 个 设备 
点 的 连接 ; 距离 短 ; 安装 技术 要 求 不 高 | 2) 专属 的 连接 : 空间 资源 无 法 与 其 他 服务 器 共享 


2) 低 成 本 需求 : SCSI 总 线 成 本 低 3) 备份 和 数据 保护 : 备份 到 与 服务 器 直 连 的 磁带 设备 上 , 硬 
3) 较 好 的 性 能 件 失败 将 导致 更 高 的 恢复 成 本 
D 通用 的 解决 方案 : DAS 的 投资 低 , 绝 | 4) TCO( 总 拥有 成 本 高 ): 存储 容量 的 加 大 导致 管理 成 本 上 
大 多 数 应 用 可 以 接受 升 ,存储 使 用 效率 低 

4. NAS 


如 图 5-5 所 示 , NAS(Network Attached Storage, 网 络 附加 存储 ) 是 将 存储 设备 连接 到 
现 有 的 网 络 上 ,提供 数据 和 文件 服务 ,应 用 服务 器 直接 把 File 1/0 请 求 通过 LAN 传 给 远 端 
NAS 中 的 文件 系统 ,NAS 中 的 文件 系统 发 起 Block 1/0 到 与 NAS 直 连 的 磁盘 。 主 要 面向 
高 效 的 文件 共享 任务 ,适用 于 那些 需要 网 络 进行 大 容量 文件 数据 传输 的 场合 。 


应 用 


服务 器 


A File 1/0 
p LN LE 
ETT 
X 


图 5-5 NAS 


NAS 本 身 装 有 独立 的 OS, 通 过 网 络 协 议 可 以 实现 完全 跨 平台 共享 ,支持 WinNT, 
Linux、UNIX 等 系统 共享 同一 存储 分 区 ; NAS 可 以 实现 集中 数据 管理 ; 一 般 集成 本 地 备份 
软件 ,可 以 实现 无 服务 器 备份 功能 ; NAS 系统 的 前 期 投入 相对 较 高 。 

NAS 是 在 RAID 的 基础 上 增加 了 存储 操作 系统 ; NAS 内 每 个 应 用 服务 器 通过 网 络 共 
享 协 议 ( 如 NFS、CIFS) 使 用 同一 个 文件 管理 系统 ; NAS 关注 应 用 、 用 户 和 文件 以 及 它们 共 
享 的 数据 ; 磁盘 I/O 会 占用 业务 网 络 带 宽 。 

由 于 局 域 网 在 技术 上 得 以 广泛 实施 ,在 多 个 文件 服务 器 之 间 实 现 了 互联 ,因此 可 以 采用 
局 域 网 加 工作 站 族 的 方法 为 实现 文件 共享 而 建立 一 个 统一 的 框架 ,达到 互 操作 性 和 节约 成 
本 的 目的 ,NAS 的 优 缺 点 如 表 5-2 所 示 。 

表 5-2 NAS 的 优 缺 点 
4 * s # 


D 资源 共享 
2) 构架 于 IP 网 络 之 上 


D S ur we desidia 
D 带宽 瓶颈 ,一 些 应 用 会 占用 带宽 资源 


5) 异 构 环境 下 的 文件 共享 : 
0) 易于 管理 3) 不 适应 某 些 数据 库 的 应 用 


7) 备份 方案 简单 
8) 低 的 TCO 


云 计 算 与 大 数据 技术 理论 及 应 用 


5. SAN 

如 图 5-6 所 示 ,SAN( 存 储 区 域 网 络 ) 通 过 光纤 通道 连接 到 一 群 计算 机 上 。 在 该 网 络 中 
提供 了 多 主机 连接 ,但 并 非 通过 标准 的 网 络 拓扑 。 它 是 一 个 用 在 服务 器 和 存储 资源 之 间 的 、 
专用 的 、 高 性 能 的 网 络 体 系 。 它 为 实现 大 量 原始 数据 的 传输 而 进行 了 专门 的 优化 。 


应 用 
PN 服务 器 
E Block 1/0 
FCP 协 议 
g y | 

SAN 根 据 其 传输 介质 
的 不 同 又 可 以 细 分 为 
FC-SAN 和 1IP-SAN 


图 5-6 SAN 


SAN 是 一 种 高 可 用 性 \ 高 性 能 的 专用 存储 网 络 , 用 于 安全 连接 服务 器 和 存储 设备 并 有 具 
备 灵活 性 和 可 扩展 性 ; SAN 对 于 数据 库 环境 数据 备份 和 恢复 存在 巨大 的 优势 ; SAN 是 一 
种 非常 安全 的 快速 传输 、 存 储 、 保 护 , 共 享 和 恢复 数据 的 方法 。 

SAN 独立 出 一 个 数据 存储 网 络 ,网 络 内 部 的 数据 传输 率 很 快 ,但 操作 系统 仍 停留 在 服 
务 器 端 , 用 户 不 直接 访问 SAN 的 网 络 ; SAN 关注 磁盘 、 磁 带 以 及 连接 它们 的 可 靠 的 基础 结 
构 ; SAN 根据 其 传输 介质 的 不 同 又 可 以 细 分 为 FC-SAN 和 IP-SAN。 

SAN 专注 于 企业 级 存储 的 特有 问题 。 当 前 企业 存储 方案 所 遇 到 问题 的 两 个 根源 是 : 
数据 与 应 用 系统 紧密 结合 所 产生 的 结构 性 限制 ,以 及 目前 小 型 计算 机 系统 接口 (SCSD 标 准 
的 限制 。 大 多 数 分 析 都 认为 SAN 是 未 来 企业 级 的 存储 方案 ,这 是 因为 SAN 便于 集成 ,能 
改善 数据 可 用 性 及 网 络 性 能 ,而 且 还 可 以 减轻 管理 作业 ,SAN 的 优 缺 点 如 表 5-3 所 示 。 

表 5-3 SAN 的 优 缺点 
优势 $ 5 


1) 实现 存储 介质 的 共享 
2) 非常 好 的 扩展 性 : 易于 数据 备份 和 恢复 ; 实现 备份 磁带 共享 | 1) 成 本 较 高 : 需要 专用 的 连接 设备 如 


3) LAN Free 和 Server Free FC 交换 机 以 及 HBA 

4) 高 性 能 2) SAN 孤岛 

50 支持 服务 器 群集 技术 3) 技术 较为 复杂 

6) 容 灾 手 段 4) 需要 专业 的 技术 人 员 维 护 
7) 低 的 TCO 


6. DAS NAS SAN 三 种 形态 比较 

DAS,NAS,SAN 每 种 组 网 技术 都 有 其 优势 和 劣势 ,在 实际 运用 中 需要 权衡 各 方面 的 资 
源 和 适用 范围 。 一 般 来 说 ,DAS 是 最 直接 最 简单 的 组 网 技术 ,实现 简单 但 是 存储 空间 利用 
率 和 扩展 性 差 , 而 NAS 使 用 较为 广泛 ,技术 也 相对 成 熟 ,SAN 则 是 专 为 某 些 大 型 存储 而 定 
制 的 昂贵 网 络 。DAS、NAS.、SAN 三 种 存储 组 网 形态 的 比较 如 表 5-4 所 示 。 
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R 5-4 DAS,NAS,SAN 三 种 存储 组 网 形态 的 比较 


DAS NAS FC-SAN IP-SAN 
传输 类 型 SCSI.FC IP FC IP 
数据 类 型 — [x 文件 级 RA BR 
页 型 应 用 ”| 任何 SUS 数据 库 应 用 视频 监控 
- 易于 理解 易于 安装 Él 高 扩展 性 
m X 
兼容 性 好 成 本 低 eee 成 本 低 
难以 管理 ,扩展 性 有 限 ; EERE ARE | 比较 昂贵 ,配置 复 
存储 空间 利用 率 不 高 | 应 用 不 适合 de 互 操作 性 问题 | 性 能 较 低 
5.1.2 RAID 


RAID 是 廉价 元 余 磁盘 阵列 (Redundant Array of Inexpensive Disks) 的 简称 ,磁盘 阵列 
是 由 很 多 价格 较 便 宜 的 磁盘 ,组 合成 一 个 容量 巨大 的 磁盘 组 ,利用 个 别 磁盘 提供 数据 所 产生 
的 加 成 效果 提升 整个 磁盘 系统 效能 。 利 用 这 项 技术 ,将 数据 切割 成 许多 区 段 ,分 别 存 放 在 各 
个 硬盘 上 。 在 具体 介绍 RAID 之 前 ,我 们 先 了 解 一 下 相关 的 基本 概念 ,如 表 5-5 所 示 。 


表 5-5 RAID 相关 名 词 概 念 


名 if 说 OA 

分 区 又 称 为 Extent; 是 一 个 磁盘 上 的 地 址 连续 的 存储 块 。 一 个 磁盘 可 以 划分 为 多 个 分 区 ,每 
个 分 区 可 以 大 小 不 等 ,有 时 也 称 为 逻辑 磁盘 。 
又 称 为 Strips 将 一 个 分 区 分 成 多 个 大 小 相等 的 ,地址 相 邻 的 块 ,这 些 块 称 为 分 块 。 分 块 通 

分 块 常 被 认为 是 条 带 的 元 素 。 虚 拟 磁 盘 以 它 为 单位 将 虚拟 磁盘 的 地 址 映射 到 成 员 磁 盘 的 
地 址 。 
MPA Stripes 是 阵列 的 不 同 分 区 上 的 位 置 相关 的 strip 的 集合 ,是 组 织 不 同 分 区 上 条 块 

^- 的 单位 

S RATD RAID 的 所 有 功能 都 依赖 于 操作 系统 (OS) 与 服务 器 CPU 来 完成 ,没有 第 三 方 的 控制 /处 
理 ( 业 界 称 其 为 RAID 协 处 理 器 一 一 RAID Co-Processor) $ 1/0 芯片 。 

硬 RAID 有 专门 的 RAID 控制 /处 理 与 MO 处 理 芯片 ,用 来 处 理 RAID 任务 ,不 需 耗 用 主机 CPU Wt 
源 ,效率 高 ,性 能 好 。 

1. RAIDO 


RAIDO 是 指 没有 容错 设计 的 条 带 磁 盘 阵 列 , 它 主要 是 以 条 带 形式 将 RAID 阵列 的 数据 
均匀 分 布 在 各 个 阵列 中 。RAIDO 没有 磁盘 宛 余 , 若 一 个 磁盘 失败 将 导致 数据 丢失 ,总 容量 一 
(磁盘 数量 ) X (磁盘 容量 ) 。 

如 图 5-7 Bros ,图 中 一 个 圆柱 就 是 一 块 磁盘 (以 下 均 是 ) ,它们 并 联 在 一 起 。 从 图 中 可 以 
A ih RAIDO 在 存储 数据 时 由 RAID 控制 器 (硬件 或 软件 ) 分 制 成 大 小 相同 的 数据 条 ,同时 
写 人 阵列 中 的 磁盘 。 如 果 发 挥 一 下 想象 力 , 你 会 觉得 数据 像 一 条 带子 横 跨 过 所 有 的 阵列 磁 
盘 , 每 个 磁盘 上 的 条 带 深 度 则 是 一 样 的 。 至 于 每 个 条 带 的 深度 则 要 看 所 采用 的 RAID 类 型 ， 
在 NT 系统 的 软 RAIDO 等 级 中 ,每 个 条 带 深 度 只 有 64KB 一 种 选项 ,而 在 硬 RAIDO FR, 
可 以 提供 SKB. 16KB,32KB,64KB 以 及 128KB 等 多 种 深度 参数 。 
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RAID LEVEL 0: Striped Disk Array without Fault Tolerance 


A B Cc 
E F G 
I J K 
M o 


N 


图 5-7 RAIDO 
RAIDO 即 Data Stripping, 数 据 分 条 技术 。 整 个 逻辑 盘 的 数据 是 被 分 条 (stripped) 分 布 
在 多 个 物理 磁盘 上 ,可 以 并 行 读 / 写 , 提 供 最 快 的 速度 ,但 没有 宛 余 能 力 。 要 求 至 少 两 个 磁 
fk. AK E RAIDO 并 不 是 一 个 真正 的 RAID, 因 为 它 并 不 提供 任何 形式 的 宛 余 。RAIDO 的 
优 缺 点 如 表 5-6 所 示 。 


表 5-6 RAIDO 的 优 缺 点 


RAIDO 的 优点 RAIDO 的 缺点 
D 可 多 IO 操作 并 行 处 理 , 极 高 的 读 写 效率 D 无 元 余 , 一 个 RAIDO 的 磁盘 失败 ,那么 数 
2) 速度 快 ,由 于 不 存在 校 验 , 所 以 不 占用 CPU 资源 据 将 彻底 丢失 
3) 设计 、 使 用 与 配置 简单 2) 不 能 用 于 关键 数据 环境 
适用 领域 : 
1) 视频 生成 和 编辑 
2) 图 像 编辑 


3) 较为 “拥挤 ”的 操作 
4) 其 他 需要 大 的 传输 带宽 的 操作 
至 少 需要 磁盘 数 : 2 个 


2. RAIDI 


如 图 5-8 所 示 ,RAID1 以 镜像 作为 元 余 手 段 ,虚拟 磁盘 中 的 数据 有 多 个 副本 , 放 在 成 员 
磁盘 上 ,具有 100% 的 数据 元 余 , 但 磁盘 空间 利用 率 只 有 50%, 所 以 ,总 容量 =( 磁 极 数量 /2) X 
(磁盘 容量 ) 。 


RAID LEVEL 1: Mirroring & Duplexing 


[B |.| B F LE T- N- 
Ce] Ce G G K K [9 © 
FA FS = 
D D H H L L P P 


Mirroring Mirroring Mirroring Mirroring 


图 5-8 RAIDI 


对 比 RAIDO 等 级 ,硬盘 的 内 容 是 两 两 相同 的 。 这 就 是 镜像 一 一 两 个 硬盘 的 内 容 完全 一 
样 ,这 等 于 内 容 彼 此 备份 。 比 如 阵列 中 有 两 个 硬盘 ,在 写 入 时 ,RAID 控制 器 并 不 是 将 数据 
分 成 条 带 而 是 将 数据 同时 写 人 两 个 硬盘 。 这 样 ,其 中 任何 一 个 硬盘 的 数据 出 现 问题 ,可 以 马 
上 从 另 一 个 硬盘 中 进行 恢复 。 注 意 ,这 两 个 硬盘 并 不 是 主 从 关系 ,也 就 是 说 是 相互 镜像 / 恢 
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S219. RAIDI 是 非 校 验 的 RAID 级 ,其 数据 保护 和 性 能 都 极为 优秀 ,因为 在 数据 的 读 / 写 过 
程 中 ,不 需要 执行 XOR 操作 ,RAID1 的 优 缺点 如 表 5-7 所 示 。 
表 5-7 RAIDI 的 优 缺 点 


优 点 m A 
- D ECC( 错 误 检查 与 纠正 ) 效 率 低下 ,磁盘 ECC 的 CPU 占用 
INS ENDO NENINN 率 是 所 有 RAID 等 级 中 最 高 的 ,成 本 高 


2) 100% 的 数据 元 余 
3) 设计 ,使 用 简单 


适用 领域 : 

1) 财务 统计 与 数据 库 

2) 金融 系统 

3) 其 他 需要 高 可 用 的 数据 存储 环境 
至 少 需要 磁盘 数 : 2 个 


2) Kk RAID 方 式 下 ,很 少 能 支持 硬盘 的 热 插 拔 
3) 空间 利用 率 只 有 1/2 


3. RAID3 

RAID3 (条 带 分 布 十 专用 盘 校 验 ) : 以 KOR 校 验 为 宛 余 方式 ,使 用 专门 的 磁盘 存放 校 
验 数据 ,虚拟 磁盘 上 的 数据 块 被 分 为 更 小 的 数据 块 并 行 传输 到 各 个 成 员 物理 磁盘 上 ,同时 计 
算出 XOR 校 验 数据 存放 到 校 验 磁盘 上 。 只 有 一 个 磁盘 损坏 的 情况 下 ,RAID3 能 通过 校 验 
数据 恢复 损坏 磁盘 ,但 两 个 以 上 磁盘 同时 损坏 情况 下 RAID3 不 能 发 挥 数 据 校 验 功能 。 总 容 
量 一 (磁盘 数量 一 1) X (磁盘 容量 ) 。 

如 图 5-9 所 示 ,RAID3 中 , 校 验 盘 只 有 一 个 ,而 数据 与 RAIDO 一 样 是 分 成 条 带 (Stripe) 
存 人 数据 阵列 中 ,这 个 条 带 的 深度 的 单位 为 B 而 不 再 是 bit 了 。 在 数据 存 和 人 时 ,数据 阵列 中 
处 于 同一 等 级 的 条 带 的 XOR 校 验 编码 被 即时 写 在 校 验 盘 相应 的 位 置 ,所 以 彼此 不 会 干扰 
混乱 。 读 取 时 , 则 在 调 出 条 带 的 同时 检查 校 验 盘 中 相应 的 KOR 编码 ,进行 即时 的 ECC。 由 
于 在 读 写 时 与 RAIDO 很 相似 ,所 以 RAID3 具有 很 高 的 数据 传输 效率 。RAID3 的 优 缺 点 如 
# 5-8 所 示 。 


RAID LEVEL 3: Parallel Transfer with Parity 


Parity 

AO | Ai I vi | | A3 Generation [| 

BO BI B2 B3 Bar 

CO CI C2 C3 | Crary 

DO DI D2 D3 LDesarmy J 
Stripe0 — Stripe Stripe2 Stripe 3 Stripes 0, 1, 2, 3 Parity 

图 5-9 RAID3 
表 5-8 RAIDS 的 优 缺 点 
优 点 ko 点 
1) 相对 较 高 的 读 取 传输 率 1) 校 验 盘 成 为 性 能 瓶颈 


2) 高 可 用 性 ,如 果 有 一 个 磁盘 损坏 ,对 吞吐 量 影响 较 小 2) 每 次 读 写 牵 动 整个 组 ,每 次 只 能 完成 一 
3) 高 效率 的 ECC 操作 次 IO 
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BR 


适用 领域 : 

1) 视频 生成 和 在 线 编辑 

2) 图 像 和 视频 编辑 

D 其 他 需要 高 吞吐 量 的 场合 
至 少 需要 磁盘 数 : 3 个 


传输 速度 最 大 的 限制 在 于 寻找 磁道 和 移动 磁头 的 过 程 ,真正 往 磁盘 碟 片 上 写 数据 的 过 
程 实际 上 很 快 。 RAID3 阵列 各 成 员 磁盘 的 运转 马达 是 同步 的 ,所 以 整个 RAID3 可 以 认为 
是 一 个 磁盘 。 而 在 异步 传输 的 阵列 中 ,各 个 成 员 磁 盘 是 异步 的 ,可 以 认为 他 们 是 在 各 自 同时 
寻 道 和 移动 磁盘 。 比 起 RAID3 这 样 的 同步 阵列 , 像 RAIDA 这 样 的 异步 阵列 的 磁盘 各 自 寻 
道 的 速度 会 更 快 一 些 。 但 是 一 旦 找到 了 读 写 的 位 置 ,RAID3 就 会 比 异 步 快 ,因为 成 员 磁 盘 
同时 读 写 ,速度 要 快 得 很 多 。 这 也 是 RAIDS 采用 比 4 异步 阵列 大 得 多 的 数据 块 的 原因 
Z=; 

4. RAIDS 

如 图 5-10 所 示 ,RAID5 (条 带 技术 十 分 布 式 校 验 ); 以 XOR 检验 为 宛 余 方式 , 校 验 数 据 
均匀 分 布 在 各 个 数据 磁盘 上 ,对 各 个 数据 磁盘 的 访问 为 异步 操作 ,RAID5 相对 于 RAID3 改 
善 了 校 验 盘 的 瓶颈 ,总 容量 =( 磁 盘 数 一 1) X (磁盘 容量 ) 。 


== 


1 
E2 J 


E3 
E4 


Æ 5-10 RAID5 


RAID5 和 RAID4 相似 但 避免 了 RATDA 的 瓶颈 ,方法 是 不 用 校 验 磁盘 而 将 校 验 数据 以 
循环 的 方式 放 在 每 一 个 磁盘 中 ,RAID5 的 优 缺点 如 表 5-9 所 示 。 


表 5-9 RAIDS 的 优 缺 点 


优 点 缺点 
1) 高 读 取 速 率 D 异 或 校 验 影响 存储 性 能 
2) 中 等 写 速率 2) 磁盘 损坏 后 ,重建 很 复杂 


适用 领域 ; 

1) 文件 服务 器 和 应 用 服务 器 
2) OLTP 环境 的 数据 库 

3) WEB,E-MAIL 服务 器 

至 少 需要 磁盘 数 : 3 个 
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5. RAID6 


如 图 5-11 所 示 , RAID6 能 够 允许 两 个 磁盘 同时 失效 的 RAID 级 别 系统 ,其 总 容量 一 
(磁盘 数 一 2) X (磁盘 容量 )。 


A B c E 
> 
AO BO co OPRITY 
| AT BI IPRITY CI } 
A2 [2PRITY PRITY] C2 
3PRITY 3PRITY A3 C3 
图 5-11 RAID6 


如 图 5-12 所 示 , 同 RAID5 一 样 ,数据 和 校 验 码 都 是 被 分 成 数据 块 然后 分 别 存储 到 磁盘 
阵列 的 各 个 硬盘 上 。RAID6 加 入 了 一 个 独立 的 校 验 磁盘 , 它 把 分 布 在 各 个 磁盘 上 的 校 验 码 
都 备份 在 一 起 ,这 样 RAID6 磁盘 阵列 就 允许 多 个 磁盘 同时 出 现 故障 ,这 对 于 数据 安全 要 求 
很 高 的 应 用 场合 是 非常 必要 的 。RAID6 的 优 缺 点 如 表 5-10 Bros ,在 实际 应 用 中 RAIDS 的 
应 用 范围 并 没有 其 他 的 RAID 模式 那么 广泛 。 实 现 这 个 功能 一 般 需 要 设计 更 加 复杂 、 造 价 
更 昂贵 的 RAID 控制 器 ,所 以 RAID6 的 应 用 并 不 广泛 。 


[2] 

在 RAID5 的 基础 上 发 展 而 
成 ,具有 更 高 的 可 靠 性 
最 少 需要 
四 个 磁盘 


硬盘 存 
储 结构 
图 5-12 RAID6 的 特性 


# 5-10 RAID6 的 优 缺 点 
优 点 缺 ”点 
1) 快速 的 读 取 性 能 D 很 慢 的 写 和 速度 
2) 更 高 的 容错 能 力 2) 成 本 更 高 
适用 领域 : 高 可 靠 性 环境 
至 少 需要 磁盘 数 : 4 个 


6. RAIDIO 

如 图 5-13 Brzs - RAIDIO (镜像 阵列 条 带 化 ) 将 镜像 和 条 带 组合 起 来 的 组 合 RAID 级 
别 , 最 低 一 级 是 RAID1 镜像 对 ,第 二 级 为 RAID0。 其 总 容量 二 (磁盘 数 /2) X (磁盘 容量 ) 。 

每 一 个 基本 RAID 级 别 都 各 有 特色 ,都 在 价格 、 性 能 和 元 余 方 面 做 了 许多 的 折 中 。 组 合 
级 别 可 以 扬长 避 短 ,发 挥 各 基本 级 别 的 优势 。RAID10 就 是 其 中 比较 成 功 的 例子 。 
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逻辑 磁盘 | 
DIS 物理 ”物理 物理 物理 å 物理 物理 | 
pis L UG 磁盘 2 磁盘 3 RMN RRS q 


5-13 RAIDIO 


RAIDIO 数据 分 布 按照 如 下 方式 来 组 织 : 首先 将 磁盘 两 两 镜像 (RAID1) ,然后 将 镜像 
后 的 磁盘 条 带 化 。 图 5-13 中 ,磁盘 0 和 磁盘 1, 磁盘 2 和 磁盘 3, 磁盘 4 和 磁盘 5 为 镜像 后 的 
磁盘 对 。 再 将 其 条 带 化 ,最 后 得 到 数据 存储 示意 图 如 图 5-13 所 示 。 

和 RAID10 类 似 组 合 级 别 是 RAID01。 因 为 其 明显 的 缺陷 , RAID01 很 少 使 用 。 
RAID01 是 先 条 带 化 ,然后 将 条 带 化 的 阵列 镜像 。 如 同样 是 六 块 磁盘 ,RAID01 是 先 形 成 2 
个 3 块 磁盘 RAIDO 组 ,然后 将 2 个 RAIDO 组 镜像 。 如 果 一 个 RAIDO 组 中 有 一 块 磁盘 损坏 
了 ,那么 只 要 另 一 个 组 的 三 块 磁盘 中 任意 一 个 损坏 , 则 会 导致 整个 RAIDO1 阵列 不 可 用 , 即 
不 可 用 的 概率 为 3/5。 而 RATDIO 则 不 然 , 如 果 一 个 RAIDI 组 中 一 个 磁盘 损坏 ,只 有 当 同 
一 组 的 磁盘 也 损坏 了 ,整个 阵列 才 不 可 用 , 即 不 可 用 的 概率 为 /5。RAID10 的 优 缺 点 如 
K 5-11 所 示 。 

表 5-11 RAIDIO 的 优 缺 点 
优 点 缺 ”点 


1) 高 读 取 速 率 
2) 高 写 速率 , 较 校 验 RAD 而 言 , 写 开销 最 小 1) 贵 

3) 至 多 可 以 允许 N 个 磁盘 同时 损坏 (2N 个 磁盘 组 成 的 | 2) 只 有 1/2 的 磁盘 利用 率 
RAIDIO 阵列 ) 

适用 领域 : 要 求 高 可 靠 性 和 高 性 能 的 数据 库 服务 器 
至 少 需要 磁盘 数 : 4 个 


7. RAID50 

如 图 5-14 所 示 , RAID50 将 镜像 和 条 带 组 合 起 来 的 组 合 RAID 级 别 ,最 低 一 级 是 
RAIDS 镜像 对 ,第 二 级 为 RAID0。 其 总 容量 二 (磁盘 数 一 1) X (磁盘 容量 )。 

RAID50 数据 分 布 按照 如 下 方式 来 组 织 : 首先 将 分 为 n 组 磁盘 ,然后 将 每 组 磁盘 做 
RAIDS ,最 后 将 N 组 RAIDS 条 带 化 。 图 5-14 中 ,磁盘 0、 磁 盘 1 和 磁盘 2, 磁 盘 3、 磁 盘 4 和 
磁盘 5 为 RAID5 阵列 ,然后 按照 RAIDO 的 方式 组 织 数据 ,最 后 得 到 数据 存储 示意 图 。 

RAID50 是 为 了 解决 单个 RAID5 阵列 容纳 大 量 磁盘 所 带 来 的 性 能 缺点 (例如 初始 化 或 
重建 时 间 过 长 ) 而 引入 的 。RAID50 的 优 缺 点 如 表 5-12 所 示 。 
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IC 一 > -FPI 


逻辑 磁盘 


物理 ”物理 物理 物理 ”物理 物理 
磁盘 0 ”磁盘 1 ”磁盘 2 磁盘 3 磁盘 4 磁盘 5 


1 
1 


5-14 RAID50 


3 5-12. RAIDSO 的 优 缺 点 

4 点 fe ”点 
D 比 单个 RAID5 容纳 更 多 的 磁盘 
2) 比 单个 RAID5 有 更 好 的 读 性 能 
3) 至 多 可 以 允许 n 个 磁盘 同时 损坏 CN 个 RAIDS 组 成 的 

RAID50 阵列 ) 

4) 比 相同 容量 的 单个 RAIDS 重建 时 间 更 短 
适用 领域 : 
1) 大 型 数据 库 服务 器 
2) 应 用 服务 器 
3) 文件 服务 器 
至 少 需 要 磁盘 数 : 6 个 


1) 比较 难 实现 

2) 同一 个 RAID5 组 内 的 两 个 磁盘 损 
坏 会 导致 整个 RAID50 阵列 的 
失效 


8. RAID 级 别 比较 


RAID3 更 适合 于 顺序 存 取 ,RAID5 更 适合 于 随机 存 取 。 需 要 根据 具体 的 应 用 情况 决 
定 使 用 哪 种 RAID 级 别 。 各 种 级 别 的 比较 如 表 5-13 所 示 。 


表 5-13 各 种 级 别 RAID 的 比较 


项 E RAIDO RAIDI RAID10 RAIDS ,RAID3 RAID6 
最 小 配置 “| 1 2 4 3 4 
f RAID5 < RAIDIO <| RAIDI < RAIDS < | RAID6 < RAID5 < 
性 能 Highest Lowest RAIDS RAIDIÓ RADI 
特点 无 容错 最 佳 的 容错 | 最 佳 的 容错 提供 容错 提供 容错 
磁盘 利用 率 | 100% 50% 50% (N—D/N (N—2)/N 
不 带 奇 偶 校 RAIDO 与 RAIDI | 带 奇 偶 校 验 的 
验 的 条 带 集 | 磁盘 镜像 | 的 结合 条 带 集 ENS 
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5.1.3 人 磁盘 热 备 


所 谓 热 备份 是 在 建立 RAID 磁盘 阵列 系统 的 时 候 , 将 其 中 一 个 磁盘 指定 为 热 备 磁盘 ,此 
热 备 磁盘 在 平常 并 不 操作 , 当 阵 列 中 某 一 磁盘 发 生 故 障 时 , 热 备 磁盘 便 取代 故障 磁盘 ,并 自 
动 将 故障 磁盘 的 数据 重 构 在 热 备 磁盘 上 。 

热 备 盘 分 为 : 全 局 热 备 盘 和 局 部 热 备 盘 。 

(1) 全 局 热 备 盘 : 针对 整个 磁盘 阵列 ,对 阵列 中 所 有 RAID 组 起 作用 。 

(2) 局 部 热 备 盘 : 只 针对 某 一 RAID 组 起 作用 。 

因为 反应 快速 ,加 上 快 取 内 存 减 少 了 磁盘 的 存 取 ,所 以 数据 重 构 很 快 即 可 完成 ,对 系统 
的 性 能 影响 不 大 。 对 于 要 求 不 停机 的 大 型 数据 处 理 中 心 或 控制 中 心 而 言 , 热 备份 更 是 一 项 
重要 的 功能 ,因为 可 避免 晚间 或 无 人 守护 时 发 生 磁 盘 故 障 所 引起 的 种 种 不 便 。 

磁盘 热 备 的 主要 过 程 如 下 : 

CD 由 5 个 磁盘 组 成 RAID5 ,4 个 数据 盘 ,1 个 热 备 盘存 储 校 验 条 带 集 , 热 盘 平时 不 参与 


计算 。 


(2) 某 个 时 刻 某 个 数据 盘 损 坏 , 热 备 盘 根 据 校 验 集 开 始 自动 重 构 。 


G) 热 备 盘 重 构 结束 ,加 入 RAIDS 代替 损坏 磁盘 参与 计算 。 


(4) 替换 新 的 磁盘 , 热 备 盘 进 行 COPYBACK 复制 。 


(5) 热 备 盘 复 制 完成 后 ,重新 建立 校 验 集 。 
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热 备 具有 以 下 特性 : 

(1) 在 线 操作 特性 。 

(2) 系统 中 需 设置 一 个 热 添加 的 备份 盘 或 用 一 个 新 的 替代 磁盘 替代 故障 磁盘 。 

G) 当 满 足以 下 条 件 时 开始 数据 自动 重 构 : 有 一 个 热 备份 盘存 在 独立 于 故障 磁盘 所 有 
磁盘 都 配置 为 元 余 阵 列 (RAID1,3,5,10) 。 

(4) 所 有 的 操作 都 是 在 不 中 断 系 统 操作 的 情况 下 进行 的 。 


5.1.4 快照 


快照 是 某 一 个 时 间 点 上 的 逻辑 卷 的 映像 ,逻辑 上 相当 于 整个 Base Volume 的 副本 ,可 
将 快照 卷 分 配给 任何 一 台 主 机 ,快照 卷 可 读 取 、 写 入 或 复制 ,需要 相当 于 Base Volume 20% 
的 额外 空间 。 主 要 用 途 是 利用 少量 存储 空间 保存 原始 数据 的 备份 ,文件 .多 辑 卷 恢复 及 备 
份 \ 测 试 、 数 据 分 析 等 。 

1. 基本 概念 

(1) Base Volume: 快照 源 卷 。 

(2) Repository Volume: 快照 仓储 卷 ,保存 快照 源 卷 在 快照 过 程 中 被 修改 前 的 数据 。 

(3) Snapshot Volume: 快照 卷 ,是 某 一 个 时 间 点 的 逻辑 卷 映像 , 迎 辑 上 相当 于 整个 
Base Volume 的 副本 ,可 将 Sanpshot Volume 分 配给 任何 一 台 主 机 ,Snapshot Volume 可 读 
取 、 写 入 或 复制 。 

2. 快照 过 程 

(1) 首先 保证 源 卷 和 仓储 卷 的 正常 运行 。 

首先 保证 我 们 的 源 卷 和 阵列 的 运行 是 正常 的 


Excess Rer ES SHE E 
BEE FRIES ER] 


并 且 我 们 的 卷 有 足够 的 空间 来 创建 快照 
(2) 快照 开始 时 源 卷 是 只 读 的 ,快照 卷 对 源 卷 。 


E 


首先 ， 在 快照 完成 之 前 控制 器 是 禁止 对 源 卷 进行 写 操作 的 
仓储 卷 默认 是 源 卷 大 小 的 20% 
elele [elsi [r] 
满足 上 面条 件 后 ， 快 照 过程 开 始 进行 


(3) 快照 完成 ,控制 器 释放 对 源 卷 的 写 权限 ,我 们 可 以 对 源 卷 进行 写 操作 ,快照 是 一 些 
指向 源 卷 数据 的 指针 。 
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W|RI|I T|E s 


仓储 卷 (20% 源 卷 大 小 ) 现 在 可 用 
R|E|P|OJ|S|I|T 


快照 完成 状态 ， 实 际 上 是 一 些 指针 


(4) 当 源 卷 数 据 发 生 改变 时 ,首先 在 源 卷 的 数据 改变 之 前 将 原 数 据 写 入 仓储 卷 上 ,并 且 
将 快照 指针 引导 到 仓储 卷 上 ,然后 再 对 源 卷 数据 进行 修改 。 


W|R|I T|E s 


我 们 的 源 卷 数据 在 改变 之 前 会 顺序 写 到 仓 
储 卷 上 ， 然 后 针 指 导 这 边 来 
T 


然后 源 卷 的 数据 才 会 开始 更 新 
(5) 最 后 更 新 源 卷 数据 ,此 时 快照 可 以 跟踪 到 更 新 之 前 的 旧 数据 。 
源 卷 数据 更 新 完毕 


快照 卷 的 指针 指 到 了 新 的 数据 位 置 


5.1.5. 数据 分 级 存储 概念 


数据 分 级 存储 : 即 把 数据 存放 在 不 同类 别 的 存储 设备 (磁盘 、 磁 盘 阵 列 、 光 盘 库 、 磁 带 ) 
中 ,通过 分 级 存储 管理 软件 实现 数据 实体 在 存储 设备 之 间 的 自动 迁移 ; 根据 数据 的 访问 频 
率 、 保 留 时 间 、 容 量 、 性 能 要 求 等 因素 确定 最 佳 存储 策略 ,从 而 控制 数据 迁移 的 规则 。 分 级 存 
储 具有 以 下 优点 : 最 大 限度 地 满足 用 户 需 求 ; @ 减 少 总 体 存储 成 本 ; 四 性 能 优化 ; Or 
善 数据 可 用 性 ; 回 数据 迁移 对 应 用 透明 。 

一 般 分 为 在 线 (On-line) 存储、 近 线 (Near-line) 存 储 和 离线 (Off-line) 存 储 三 级 存储 方 
式 。 在 线 存储 : 是 指 存储 设备 和 所 存储 的 数据 时 刻 保持 “在 线 ” 状 态 , 可 供用 户 随意 读 取 , 满 
足 计算 平台 对 数据 访问 的 速度 要 求 。 离 线 存储 : 是 对 在 线 存储 数据 的 备份 ,以 防范 可 能 发 
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生 的 数据 灾难 。 离 线 存储 的 数据 不 常 被 调用 ,一 般 也 远离 系统 应 用 ; 离线 存储 的 访问 速度 
慢 , 效 率 低 , 典 型 产品 是 磁带 库 。 近 线 存储 : 主要 定位 于 客户 在 线 存储 和 离线 存储 之 间 的 应 
用 ,将 那些 不 是 经 常用 到 ,或 者 说 数据 的 访问 量 并 不 大 的 数据 存放 在 性 能 较 低 的 存储 设备 
上 ,但 同时 对 这 些 设备 要 求 是 寻 址 迅速 ,传输 率 高 ,需要 的 存储 容量 相对 较 大 。 关 于 三 级 存 
储 方式 的 详细 比较 见 表 5-14。 


表 5-14 三 级 存储 方式 比较 


存储 方式 


描 6 


= fl 


在 线 存 储 On-line 


storage) 


数据 存放 在 磁盘 系统 上 。 在 线 
存储 一 般 采 用 高 端 存储 系统 和 
技术 ,如 SAN、 点 对 点 直 连 技术 、 
S2A。 存 取 速 度 快 ,价格 昂贵 


电视 台 的 在 线 存 储 : 用 于 存储 即将 用 于 制作 、 
编辑 、 播 出 的 视 音频 素材 。 并 随时 保持 可 实时 
快速 访问 的 状态 。 在 这 类 应 用 中 ,在 线 存 储 设 
备 一 般 采用 SCSI 磁盘 阵列 .光纤 磁盘 阵列 等 


离线 存储 (Offline 
Storage) 


数据 备份 到 磁带 、 磁 带 库 或 光盘 
库 上 。 访 问 速度 低 , 但 能 实现 海 
量 存储 ,同时 价格 低廉 


电视 台 的 离线 存储 : 平时 没有 连接 在 编辑 / 播 
出 系统 ,在 需要 时 临时 性 地 装载 或 连接 到 编 
辑 / 播 出 系统 。 可 以 将 总 的 存储 做 得 很 大 。 包 
括 制作 年 代 较 远 的 新 闻 片 .专题 片 等 


近 线 存储 (Near-line 


storage) 


不 经 常用 到 ,访问 量 不 大 的 数据 
存放 在 性 能 较 低 的 存储 设备 上 ， 
同时 对 这 些 设备 的 要 求 是 寻 址 
迅速 .传输 率 高 


5.2 云 存 储 概 念 与 技术 原理 


关于 云 存储 的 定义 ,目前 没有 标准 。 全 球 网 络 存储 工业 协会 CSNIA) 给 出 的 云 存 储 的 定 
义 是 : 通过 网 络 提供 可 配置 的 虚拟 化 的 存储 及 相关 数据 的 服务 。 百 度 百 科 给 出 的 定义 是 ， 
云 存储 是 在 云 计算 概念 上 延伸 和 发 展 出 来 的 一 个 新 的 概念 ,是 指 通过 虚拟 化 、 集 群 应 用 、 网 
格 技术 或 分 布 式 文件 系统 等 功能 ,将 网 络 中 大 量 各 种 不 同类 型 的 存储 设备 通过 应 用 软件 集 
合 起 来 协同 工作 ,共同 对 外 提供 数据 存储 和 业务 访问 功能 的 一 个 系统 。 

云 存储 其 实 是 在 云 计算 概念 上 发 展 出 来 的 一 个 新 概念 , 它 一 般 包 含 两 个 含义 : (1) 云 存 
储 是 云 计算 的 存储 部 分 , 即 虚 拟 化 的 .易于 扩展 的 存储 资源 池 。 用 户 通 过 云 计算 使 用 存储 资 
源 池 ,但 不 是 所 有 的 云 计算 的 存储 部 分 都 是 可 以 分 离 的 。(2) 云 存储 意味 着 存储 可 以 作为 一 
种 服务 ,通过 网 络 提供 给 用 户 。 用 户 可 以 通过 若干 种 方式 (互联 网 开放 接口 ,在线 服务 等 ) 来 
使 用 存储 ,并 按 使 用 (时 间 、 空 间或 两 者 结合 ) 付 费 。 从 技术 层面 看 ,目前 业界 普遍 认为 云 存 
储 分 为 两 种 主流 技术 解决 方案 : 分 布 式 存储 和 基于 虚拟 化 技术 。 下 面 分 别 从 这 两 个 方面 讨 
论 云 存储 的 技术 原理 。 


近 线 存储 介 于 在 线 存储 和 离线 存储 之 间 , 既 可 
以 做 到 较 大 的 存储 容量 ,又 可 以 获得 较 快 的 存 
取 速 度 。 近 线 存 储 设备 一 般 采 用 自动 化 的 数 
据 流 磁带 或 者 光盘 塔 。 近 线 存 储 设备 用 于 存 
储 和 在 线 设备 发 生 频 繁 读 写 交换 的 数据 ,包括 
近 段 时 间 采 集 的 视 音频 素材 或 近 段 时 间 制 作 
的 新 闻 片 ,专题 片 等 


云 计 算 与 大 数据 技术 理论 及 应 用 


5.2.1 分 布 式 存储 


从 分 布 式 存储 的 技术 特征 上 看 ,分 布 式 存储 主要 包括 分 布 式 块 存储 、 分 布 式 文件 存储 、 
分 布 式 对 象 存储 和 分 布 式 表 存储 四 种 类 型 。 

1. 分 布 式 块 存储 

如 图 5-15 所 示 , 块 存储 将 存储 区 域 划分 成 国定 大 小 的 小 块 , 是 传统 裸 存储 设备 的 存储 
空间 对 外 暴露 方式 。 块 存储 系统 将 大 量 磁盘 设备 通过 SCSI/SAS 或 FC SAN 与 存储 服务 
器 连接 ,服务 器 直接 通过 SCSI/SAS 或 FC 协议 控制 和 访问 数据 。 块 存储 方式 不 存在 数据 
打包 / 解 包 过 程 , 可 提供 更 高 的 性 能 。 分 布 式 块 存储 的 系统 目标 是 : 为 现 有 的 各 种 应 用 提供 
通用 的 存储 能 力 。 


人 ”传统 设备 的 块 存储 面向 1 1 在 云 计算 环境 下 ， 块 存储 | 
E 的 是 单一 的 物理 设备 ， ! _ 设备 面临 着 分 布 式 环境 __ 
索引 节点 存储 节点 1 
直接 索引 1 n 
直接 索引 2 数据 也 
TT FER 
= 直接 索引 3 AGE 
BR = 直接 索引 4 数据 
直接 索引 5 
数据 志 Auria 
直接 索引 6 Tem 
数据 块 E E 
目录 索引 THREE 
TA 
[TS 目录 索引 zin 
数据 也 


图 5-15 块 存储 技术 


块 存储 技术 特点 : 

(1) 基于 传统 的 磁盘 阵列 实现 ,对 外 提供 标准 的 FC 或 iSCSI 协议 ; 

(2) 数据 访问 特点 : 延迟 低 、 带 宽 较 高 .但 可 扩展 性 差 ; 

(3) 应 用 系统 跟 存 储 系统 耦合 程度 紧密 ; 

(4) 以 卷 的 方式 挂 载 到 主机 操作 系统 后 ,可 格式 化 文件 系统 ,或 以 裸 数 据 或 文件 系统 的 
方式 作为 数据 库 的 存储 。 

块 存储 主要 适用 场景 : 

CD 为 一 些 高 性 能 ,高 IO 的 企业 关键 业务 系统 (如 企业 内 部 数据 库 ) 提 供 存储 。 块 存储 
本 身 可 以 通过 多 个 设备 堆 琶 出 更 大 的 空间 ,但 受 限于 数据 库 的 能 力 ,通常 只 能 支持 太 字 节 级 
数据 库 应 用 ; 

(2) 可 为 虚拟 机 提供 集中 存储 ,包括 镜像 和 实例 的 存储 。 

块 存 储 主 要 包括 DAS 和 SAN 两 种 存储 方式 ,关于 两 种 技术 的 详细 介绍 见 5. 1.1 节 ， 
表 5-15 比较 两 种 技术 的 优 缺 点 和 适用 的 场景 。 
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表 5-15 块 存储 技术 比较 


优 点 缺 点 

不 能 提供 不 同 操作 系统 下 的 文件 共享 
存储 容量 受 限 于 1/O 总 线 支持 的 设备 数量 
服务 器 发 生 故 障 时 ,数据 不 可 访问 


设备 成 本 低廉 ,实施 简单 
DAS | 通过 磁盘 阵列 技术 ,可 将 多 块 硬盘 在 逻辑 上 
组 合成 一 块 硬盘 ,实现 大 容量 的 存储 


数据 备份 操作 非常 复杂 
可 实现 大 容量 存储 设备 数据 共享 建设 成 本 和 能 耗 高 ,部署 复杂 
AN 可 实现 高 速 计算 机 和 高 速 存储 设备 的 高 速 | 单独 建立 光纤 网 络 , 异 地 扩展 比较 困难 
互联 互 操作 性 差 , 数 据 无 法 共享 
可 实现 数据 高 效 快速 集中 备份 元 数据 服务 器 会 成 为 性 能 瓶颈 
适用 场景 


服务 器 在 地 理 分 布 上 很 分 散 ,通过 SAN 或 NAS 在 它们 之 间 进 行 互 连 非常 困难 
DAS | 既 要 求 数据 的 集中 管理 ,又 要 求 最 大 限度 地 降低 数据 的 管理 成 本 
许多 数据 库 应 用 和 应 用 服务 器 在 内 的 应 用 ,它们 需要 直接 连接 到 存储 器 上 
与 其 他 计算 资源 紧密 集群 来 实现 远程 备份 和 档案 存储 过 程 
磁盘 镜像 .备份 与 恢复 、 档 案 数据 的 存档 和 检索 ,存储 设备 间 的 数据 迁移 以 及 网 络 中 不 同 服 
务 器 间 的 数据 共享 等 
用 于 合并 子 网 和 网 络 附 接 存储 系统 


SAN 


2. 分 布 式 文件 存储 

文件 存储 以 标准 文件 系统 接口 形式 向 应 用 系统 提供 海量 非 结 构 化 数据 存储 空间 。 分 布 
式 文件 系统 把 分 布 在 局 域 网 内 各 个 计算 机 上 的 共享 文件 夹 集 合成 一 个 虚拟 共享 文件 夹 ,将 
整个 分 布 式 文件 资源 以 统一 的 形式 呈现 给 用 户 。 它 对 用 户 和 应 用 程序 屏蔽 各 个 节点 计算 机 
底层 文件 系统 的 差异 ,提供 用 户 方便 地 管理 资源 的 手段 或 统一 的 访问 接口 。 

分 布 式 文件 系统 的 出 现 很 好 地 满足 了 互联 网 信息 不 断 增 长 的 需求 ,并 为 上 层 构 建 实时 
性 更 高 .更 易 使 用 的 结构 化 存储 系统 提供 有 效 的 数据 管理 的 支持 。 在 催生 了 许多 分 布 式 数 
据 库 产品 的 同时 ,也 促使 分 布 式 存储 技术 不 断 发 展 和 成 熟 。 表 5-16 给 出 了 分 布 式 存储 的 技 
术 特 点 与 适用 场景 。 

表 5-16 分布 式 存储 的 技术 特点 与 适用 场景 

提供 NFS/CIFS/POSIX 等 文件 访问 接口 
协议 开销 较 高 ,响应 延迟 较 块 存储 长 
应 用 系统 跟 存储 系统 的 耦合 程度 中 等 
存储 能 力 和 性 能 水 平 扩展 
适合 TB~PB 级 文件 存储 ,可 支持 文件 频繁 修改 和 删除 。 例 如 图 片 ,文件 .视频 .邮件 附件 、 
MMS 的 存储 
适用 场景 | 海量 数据 存储 及 系统 负载 的 转移 
文件 在 线 备份 
文件 共享 


技术 特点 


1) 传统 分 布 式 文件 系统 NAS 
如 图 5-16 所 示 ,网 络 附加 存储 NAS 是 一 种 文件 网 络 存储 结构 ,通过 以 太 网 及 其 他 标准 
的 网 络 拓扑 结构 将 存储 设备 连接 到 许多 计算 机 上 ,建立 专用 于 数据 存储 的 存储 内 部 网 络 。 


云 计 算 与 大 数据 技术 理论 及 应 用 


以 SUN-Lustre 文件 系统 为 例 , 它 只 对 数据 管理 器 应 用 服务 器 
MDS 提供 容错 解决 方案 。Lustre 推荐 OST( 对 象 存 储 
服务 器 ) 节 点 采用 成 本 较 高 的 RAID 技术 或 SAN 存储 
区 域 网 络 来 达到 容 灾 的 要 求 ,但 Lustre 自身 不 能 提供 d 
数据 存储 的 容 灾 ,一 旦 OST 发 生 故 障 就 无 法 恢复 , 因 - - 
此 对 OST 的 可 靠 性 就 提出 了 相当 高 的 要 求 ,大 大 增加 | 文人 系统 iba 
了 存储 的 成 本 ,这 种 成 本 的 投入 会 随 着 存储 规模 的 扩 = T 
大 线性 增长 。 E us 

2) 分 布 式 文件 系统 GFS 5-16 NAS 系 统 

GFS 是 Google 公司 为 了 存储 海量 搜索 数据 而 设 
计 的 专用 文件 系统 。 如 图 5-17 所 示 ,GFS 是 一 个 可 扩展 的 分 布 式 文件 系统 ,用 于 大 型 的 、 分 
布 式 的 .对 大 量 数 据 进 行 访问 的 应 用 。 


以 太 网 交换 机 


Client( 客 户 端 ) 
GFS | Master( 主 服务 器 ) 


GFS 集 群 


Chunk Server( 数 据 库 服 务 器 ) 


图 5-17 GFS 的 组 成 


(1) Client: GFS 提供 给 应 用 程序 的 接口 ,不 遵守 POSIX 规范 以 库 文件 形式 提供 。 

(2) Master: GFS 的 管理 节点 ,主要 存储 与 数据 文件 相关 的 元 数据 。 

(3) Chunk Server: 负责 具体 的 存储 工作 ,用 来 存储 Chunk. 

3) 分 布 式 文件 系统 HDFS 

如 图 5-18 所 示 , HDFS(Hadoop Distributed File System) 是 运行 在 通用 硬件 上 的 分 布 
式 文件 系统 ,提供 了 一 个 高 度 容 错 性 和 高 吞吐 量 的 海量 数据 存储 解决 方案 。 


=| 


NameNode(Master 服 务 器 ) 


DataNode(Slave 服 务 器 ) 


Metadata(Name, replicas, ...): 
/home/foo/data, 3, ... 


Namenode 


Metadata ops,- 


CClienD) Block ops 
Read Datanodes 


Datanodes 
口 
Replicati 
R S Blocks 
x \ v [a 
Rack 2 
Rack 1 Write ic] 
Client 


图 5-18 HDFS 系统 


NameNode 


QD 处 理 来 自 客户 端的 文件 访问 ; 
QO 处 理 来 自 客户 端的 文件 访问 ; 


© 负责 数据 块 到 数据 节点 之 间 的 映射 。 


DataNode 


CD 管理 挂 载 在 节点 上 的 存储 设备 ; 

© 响应 客户 端的 读 写 请 求 ; 

© 在 NameNode 的 统一 调度 下 创建 .删除 和 复制 数据 块 。 

3. 分 布 式 对 象 存储 

分 布 式 对 象 存储 层次 结构 如 图 5-19 所 示 。 对 象 存 储 为 海量 非 结构 化 数据 提供 Key- 
Value 这 种 通过 键 - 值 查找 数据 文件 的 存储 模式 ,提供 了 基于 对 象 的 访问 接口 ,有 效 地 合并 
了 NAS 和 SAN 的 存储 结构 优势 ,通过 高 层次 的 抽象 具有 NAS 的 跨 平 台 共 享 数据 和 基于 
策略 的 安全 访问 优点 ,支持 直接 访问 具有 SAN 的 高 性 能 和 交换 网 络 结构 的 可 伸缩 性 。 


应 用 层 应 用 层 
mni ee cM 
系统 调用 接口 系统 调用 接口 


: 
文件 系统 用 户 组 件 occi 


文件 系统 用 户 组 件 


文件 系统 存储 管理 上、 OSD 接 品 

LBA 接 口 | SSE 

eee Tee -i t ”OSD 存 储 管理 

rrt- 7 

! 块 1/0 管 理 i ' HVOF EE 

| Pod 

| 存储 池 EE 存储 池 

rs J spp pp 
图 5-19 分 布 式 对 象 存储 层次 结构 

分 布 式 对 象 存储 具有 如 下 特点 : 


1) 访问 接口 简单 ,提供 REST/SOAP 接口 ; 


2) 协议 开销 高 ,响应 延迟 较 文件 存储 长 ; 


3) 引入 对 象 元 数据 描述 对 象 特征 ; 


4) 应 用 系统 跟 存 储 系统 的 耦合 程度 松散 ; 


5) 支持 一 次 写 多 次 读 。 
对 象 存储 系统 由 以 下 部 分 组 成 。 


CD 对 象 (Object) : 对 象 存储 的 基本 单元 。 


(2) 对 象 存储 设备 (OSD) : 对 象 存储 系统 的 核心 。 
(3) 文件 系统 : 文件 系统 对 用 户 的 文件 操作 进行 解释 .并 在 元 数据 服务 器 和 对 象 存 储 
设备 间 通 信 , 完 成 所 请 求 的 操作 。 
(4) 元 数据 服务 器 (MDS) : 为 客户 端 提供 元 数据 。 
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(5) 网 络 连接 : 对 象 存储 系统 的 重要 组 成 部 分 。 

对 象 特 点 如 下 。 

CD 对 象 是 介 于 文件 和 块 之 间 的 一 种 抽象 ,具有 唯一 的 ID 标识 符 。 对 象 提供 类 似 文件 
的 访问 方法 ,如 创建 .打开 、 读 写 和 关闭 等 。 

O 每 个 对 象 是 一 系列 有 序 字 节 的 集合 ,是 数据 和 数据 属性 集 的 综合 体 。 数 据 包括 自身 的 
元 数据 和 用 户 数据 。 数 据 属性 可 以 根据 应 用 的 需求 进行 设置 ,包括 数据 分 布 . 服 务 质量 等 。 

© 对 象 维护 自己 的 属性 ,简化 了 存储 系统 的 管理 任务 ,增加 了 灵活 性 。 

图 对 象 分 为 根 对 象 . 组 对 象 和 用 户 对 象 。 

对 象 存储 系统 (如 图 5-20 所 示 ) 在 高 性 能 计算 及 企业 级 应 用 方面 发 挥 着 重要 作用 ,对 象 
的 灵活 性 和 易 扩展 的 能 力 在 大 数据 处 理 方面 非常 得 心 应 手 。 表 5-17 示 出 了 一 些 对 象 存储 
的 适用 范围 。 


计算 节点 
文件 系统 


并 行 数 据 路 径 控制 路 径 


元 数据 服务 器 


90% 工 作 量 目录 /文件 对 象 管理 


| 10% 工 作 量 


虚拟 命名 空间 
对 象 存 储 设备 
对 象 组 件 管理 


器 加 EJ 
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表 5-17 对象 存储 的 适用 场景 及 其 适用 业务 
云 存储 供应 商 : 对 象 存储 使 得 “混合 云 " 和 “私有 云 " 成 为 可 能 
高 性 能 计算 领域 : 提供 了 一 个 带 有 NAS 系统 的 传统 的 文件 共享 和 管理 特征 的 单 系统 映像 
文件 系统 ,并 改进 了 SAN 的 资源 整合 和 可 扩展 的 性 能 
企业 级 应 用 : 对 象 存储 是 企业 能 够 以 低 成 本 的 简易 方式 实现 对 大 规模 数据 存储 和 访问 的 
方案 
大 数据 应 用 : 对 象 存储 系统 对 于 文件 索引 所 容纳 的 条 目 数量 不 受 限 制 
数据 备份 或 归档 : 以 互联 网 服务 的 方式 进行 广 域 归档 或 远程 数据 备份 
大 型 流 数据 存储 对 象 (如 视频 与 音频 流 媒 体 数据 ) 


对 象 存储 
适用 场景 


对 象 存储 证 宛 存 储 对 象 (如 下 感 图 像 数 据 .图 片 数据 等 ) 


适用 业务 


小 型 存储 对 象 (如 一 般 矢 量 GIS 数据. 文本 属性 和 DEM 数据 等 ) 
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4. 分 布 式 表 存 储 

传统 数据 库 技术 壁 侄 : 

(1) 传统 关系 数据 库 管理 系统 强调 的 ACID 特性 即 原子 性 ,最 典型 的 就 是 关系 数据 库 
事务 一 致 性 ,目前 很 多 Web 实时 应 用 系统 并 不 要 求 严格 的 数据 库 事务 特性 ,对 读 一 致 性 的 
要 求 很 低 , 有 些 场 合 对 写 一 致 性 要 求 也 不 高 ,因此 数据 库 事 务 管理 成 了 数据 库 高 负载 下 的 一 
个 沉重 负担 ,也 限制 了 关系 数据 库 向 着 扩展 性 和 分 布 式 方向 的 发 展 。 

(2) 传统 关系 数据 库 管理 系统 中 的 表 都 是 存储 经 过 串 行 化 的 数据 结构 ,每 个 字段 构成 
都 一 样 , 即 使 某 些 字段 为 空 ,数据 库 管 理 系统 也 会 为 每 个 元 组 分 配 所 有 字段 的 存储 空间 ,这 
也 是 关系 数据 库 管理 系统 的 一 个 限制 性 能 提升 的 瓶颈 。 

(3) 分 布 式 表 存储 以 键 值 对 的 形式 进行 存储 , 它 的 结构 灵活 ,不 像 关系 数据 库 那样 每 个 
有 固定 的 字段 数 ,每 个 元 组 可 以 有 自己 不 一 样 的 字段 构成 ,也 可 以 根据 需要 增加 一 些 自己 所 
特有 的 键 值 对 ,这 样 每 个 结构 就 很 灵活 ,可 以 动态 调整 ,减少 一 些 不 必要 的 处 理 时 间 和 空间 
开销 。 

分 布 式 表 存储 系统 : 

分 布 式 表 存 储 的 系统 目标 是 管理 结构 化 数据 或 半 结 构 化 数据 。 表 存储 系统 用 来 存储 和 
管理 结构 化 / 半 结 构 化 数据 ,向 应 用 系统 提供 高 可 扩展 的 表 存 储 空间 ,包括 交易 型 数据 库 和 
分 析 型 数据 库 。 交 易 型 数据 特点 : 每 次 更 新 或 查找 少量 记录 ,并 发 量 大 ,响应 时 间 短 ; 分 析 
型 数据 特点 : 更 新 少 ,批量 导入 ,每 次 针对 大 量 数据 进行 处 理 , 并 发 量 小 。 交 易 型 数据 常用 
NoSQL 存储 ,而 分 析 型 数据 常用 日 志 详 单 类 存储 。 表 存储 技术 的 适用 场景 和 技术 特点 如 
K 5-18 所 示 o 

表 5-18 分布 式 表 存 储 系 统 的 技术 特点 与 适用 场景 


技术 特点 适用 场景 
NoSQL 存储 通常 不 支持 SQL、 只 有 主 索 引 , 半 结构 化 st 
日 志 详 单 类 存储 | MC SQL 索引 通常 只 对 单 表 有 效 、 多 表 | 大 规模 日 志 存储 处 理 、 信 令 系 统 处 
ii Join 需 扫描 ,支持 MapReduce 并 行 计 算 | 理 、 经 分 系统 ETL 等 
OLTP 关系 数据 库 | 支持 标准 SQL. ER Join 索引、 事务 计 费 系统 、 在 线 交 易 系统 等 
OLAP 数据 仓库 — | 支持 标准 SQL. EK Join. R41 中 等 规模 日 志 存储 处 理 、 经 分 系统 等 
NoSQL 系统 : 


NoSQL 是 设计 满足 超大 规模 数据 存储 需求 的 分 布 式 存储 系统 ,没有 固定 的 Schema, 不 
支持 Join 操作 ,通过 “向 外 扩展 ”的 方式 提高 系统 负载 能 力 。 

BigTable 是 Google 设计 的 分 布 式 数据 存储 系统 ,用 来 处 理 海量 数据 的 一 种 非 关 系 型 
的 数据 库 。 本 质 上 说 ,BigTable 是 一 个 键 - 值 (key-value) 映 射 。 

HBase 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系统 ,利用 HBase 技术 
可 在 廉价 PCServer 上 搭建 起 大 规模 结构 化 存储 集群 ,基于 列 存 储 的 键 值 对 NoSQL 数据 库 
AR. RH Java 语言 实现 的 HBase 表 结 构 是 一 个 稀 朴 的 、 多 维度 的 排序 的 映射 表 。 客 户 
端 以 表格 为 单位 ,进行 数据 的 存储 ,每 一 行 都 有 一 个 关键 字 作为 行 在 HBase 的 唯一 标识 , 表 
数据 采用 稀 朴 的 存储 模式 ,因此 同一 张 表 的 不 同行 可 能 有 截然 不 同 的 列 。 一 般 通 过 行 主键 
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和 列 关 键 字 和 时 间 戳 来 访问 表 中 的 数据 单元 。 其 他 NoSQL 数据 库 如 表 5-19 所 示 , 可 分 为 
列 存 储 、 文 档 存储 、Key-Value 存储 等 。 


表 5-19 主要 的 NoSQL 数据 库 类 型 及 其 特点 


类 型 主要 产品 特 点 

Hbase 顾名思义 ,是 按 列 存储 数据 的 。 最 大 的 特点 是 方便 存储 结构 

列 存储 Cassandra 化 和 半 结 构 化 数据 ,方便 做 数据 压缩 ,对 针对 某 一 列 或 者 某 几 
Hypertable 列 的 查询 有 非常 大 的 IO 优势 
MongoDB 文档 存储 一 般 用 类 似 json 的 格式 存储 ,存储 的 内 容 是 文档 型 

文档 存储 CouchDB 的 。 这 样 也 就 有 机 会 对 某 些 字段 建立 索引 ,实现 关系 数据 库 

的 某 些 功能 

TCabinet/Tyrant 

Key-Value fh Berkeley DB 可 以 通过 key 快速 查询 到 其 value。 一 般 来 说 ,存储 不 管 value 
MemcacheDB 的 格式 , 照 单 全 收 。(Redis 包含 了 其 他 功能 ) 
Redis 

图 存储 Neo4J 图 形 关 系 的 最 佳 存储 。 使 用 传统 关系 数据 库 来 解决 的 话 性 能 
FlockDB 低下 ,而且 设计 使 用 不 方便 

对 象 存储 db4o 通过 类 似 面向 对 象 语言 的 语法 操作 数据 库 , 通 过 对 象 的 方式 
Versant 存 取 数据 

XML 数据 库 Berkeley DB XML | 高 效 的 存储 XML 数据 ,并 支持 XML 的 内 部 查询 语法 ,例如 
BaseX XQuery, Xpath 


在 大 规模 的 分 布 式 数据 管理 系统 中 ,数据 的 划分 策略 直接 影响 系统 的 扩展 性 和 性 能 ,分 
布 式 环境 下 ,数据 的 管理 和 存储 都 需要 协调 多 个 服务 器 节点 来 进行 ,为 提高 系统 的 整体 性 能 
和 避免 某 个 节点 负载 过 高 ,系统 必须 在 客户 端 请 求 到 来 时 及 时 进行 合理 的 分 发 。 目 前 ,主流 
的 分 布 式 数 据 库 系统 在 数据 划分 的 策略 方面 主要 有 顺序 均 分 和 哈 希 映射 两 种 方式 。 

BigTable 和 HBase 就 是 采用 顺序 均 分 的 策略 进行 数据 划分 ,这 种 划分 策略 能 有 效 利 用 
系统 资源 ,也 易 扩 展 系统 的 规模 。Cassandra 和 Dynamo 采取 哈 希 映射 方式 进行 数据 划分 ， 
保证 了 数据 能 均匀 散 列 到 各 存储 节点 上 ,避免 了 系统 出 现 单 点 负载 较 高 的 情况 ,这 种 方式 也 
能 提供 良好 的 扩展 性 。 

负载 均衡 是 分 布 式 系统 需要 解决 的 关键 问题 。 分 布 式 数据 管理 系统 中 ,负载 均衡 主要 
包括 数据 均匀 的 散 列 ,和 访问 请 求 产生 的 负载 能 均匀 分 担 在 各 服务 节点 上 ,实际 中 这 两 者 很 
难 同 时 满足 ,用 户 访问 请 求 的 不 可 预测 性 可 能 导致 某 些 节点 过 热 。 

Dynamo 采用 虚拟 节点 技术 ,将 负载 较 大 的 虚拟 节点 映射 到 服务 能 力 较 强 的 物理 节点 
上 来 达到 系统 的 负载 均衡 ,这 也 使 服务 能 力 较 强 的 物理 节点 在 集群 的 喻 希 一 环 上 占有 多 个 
虚拟 节点 的 位 置 ,避免 了 负载 均衡 策略 导致 数据 在 全 环 的 移动 。HBase 通过 主 控 节 点 监 
控 其 他 每 个 RegionServer 的 负载 状况 ,通过 Region 的 划分 和 迁移 来 达到 系统 的 负载 
均衡 。 


5.2.2 存储 虚拟 化 


1. 存储 虚拟 化 技术 背景 
企业 用 户 面 对 着 日 益 复杂 的 异 构 平台 ,不 同 厂商 的 产品 ,不 同 种 类 的 存储 设备 ,这 给 存 
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储 管理 带 来 诸多 难题 。 数 据 应 用 已 不 再 局 限于 某 一 企业 和 部 门 ,而 分 布 于 整个 网 络 环境 。 
系统 整合 .资源 共享 .简化 管理 .降低 成 本 以 及 自动 存储 将 成 为 信息 存储 技术 的 发 展 要求 。 
存储 虚拟 化 技术 (Storage Virtualization) 是 解决 这 些 问题 的 有 效 手段 ,现成 为 信息 存储 技术 
的 主要 发 展 方向 。 随 着 网 络 存储 的 飞速 发 展 给 存储 虚拟 化 赋予 了 新 的 内 涵 。 使 之 成 为 共享 
存储 管理 中 的 主流 技术 。 

存储 虚拟 化 的 基本 原理 是 : 把 多 个 存储 介质 模块 (如 硬盘 、 磁 盘 、 磁 带 ) 通 过 一 定 手段 集 
中 管理 ,把 不 同 接口 协议 (如 SCSI, iSCSI 或 FC 等 ) 的 物理 存储 设备 (如 JBOD, RAID 和 磁 
带 库 等 ) 整 合成 一 个 虚拟 的 存储 池 ,根据 需要 为 主机 创建 和 提供 虚拟 存储 卷 。 即 把 不 同 存储 
硬件 抽象 出 来 ,以 管理 工具 来 实现 统一 的 管理 ,不 必 再 管 后 端的 介质 到 底 是 什么 。 

2. 存储 虚拟 化 的 分 类 

虚拟 化 的 目的 主要 有 三 个 : 抽象 .隐藏 隔离。 存储 虚拟 化 的 目的 是 为 了 提高 设备 使 用 
效率 ,统一 数据 管理 功能 ,设备 构件 化 ,降低 管理 难度 ,提高 可 扩展 性 ,数据 跨 设备 流动 。 

如 图 5-21 所 示 ,存储 虚拟 化 技术 主要 指 通过 在 物理 存储 系统 和 服务 器 之 间 增 加 一 个 虚 
拟 层 , 使 服务 器 的 存储 空间 可 以 跨越 多 个 异 构 的 磁盘 阵列 ,实现 从 物理 存储 到 逻辑 存储 的 转 
变 。 通 过 对 存储 ( 子 ) 系 统 或 存储 服务 的 内 部 功能 进行 抽象 .隐藏 或 隔离 ,使 存储 或 数据 的 管 
理 与 应 用 、 服 务 器 、 网 络 资源 的 管理 分 离 , 从 而 实现 应 用 和 网 络 的 独立 管理 。 对 存储 服务 和 
设备 进行 虚拟 化 ,能 够 在 对 下 一 层 存储 资源 进行 扩展 时 进行 资源 合并 、 降 低 实现 的 复杂 度 。 
存储 虚拟 化 可 以 在 系统 的 多 个 层面 实现 ,例如 建立 类 似 于 HSM( 分 级 存储 管理 ) 的 系统 。 


标准 化 接 入 


Emam 
空间 资源 整合 四 


图 5-21 存储 虚拟 化 


从 系统 的 观点 看 ,存储 虚拟 化 有 3 种 途径 (分 类 ): (1) 基 于 主机 的 存储 虚拟 化 ; (2) 基 于 
网 络 的 存储 虚拟 化 ; (3) 基 于 存储 设备 的 存储 虚拟 化 。 

3. 基于 主机 的 存储 虚拟 化 

基于 主机 的 虚拟 存储 依靠 于 代理 软件 ,它们 安装 在 一 个 或 多 个 主机 上 ,实现 存储 虚拟 化 
的 控制 和 治理 ,如 图 5-22 所 示 。 它 的 实现 方式 一 般 由 操作 系统 下 的 逻辑 卷 管理 软件 完成 
(安装 客户 端 软 件 ) ,不 同 操作 系统 的 逻辑 卷 管理 软件 也 不 相同 。 由 于 控制 软件 是 运行 在 主 
机 上 ,这 就 会 占用 主机 的 处 理 时 间 。 但 是 ,由 于 不 需要 任何 附加 硬件 ,基于 主机 的 虚拟 化 方 
法 最 容易 实现 ,其 设备 本 钱 最 低 。 基 于 主机 的 存储 虚拟 化 的 主要 用 途 在 于 ,使 服务 器 的 存储 


20 云 计算 与 大 数据 技术 理论 及 应 用 


空间 可 以 跨越 多 个 异 构 的 磁盘 阵列 ,常用 于 在 不 同 磁盘 阵列 之 间 做 数据 镜像 保护 。 常 见 产 
品 如 Symantec Veritas VolumeManager。 基 于 主机 的 存储 虚拟 化 主要 有 如 下 优势 和 劣势 : 


999g 


DASS 机 AN 存储 网 络 


图 5-22 ”基于 主机 的 存储 虚拟 化 

优点 : 支持 异 构 的 存储 系统 。 

缺点 : (1) 占 用 主机 资源 ,降低 应 用 性 能 ; (2) 存 在 操作 系统 和 应 用 的 兼容 性 问题 ; 
(3) 导 致 主机 升级 、 维 护 和 扩展 非常 复杂 ,而 且 容 易 造 成 系统 不 稳定 性 ; (4) 需 要 复杂 的 数据 
迁移 过 程 ,影响 业务 连续 性 。 

4. 基于 网 络 的 存储 虚拟 化 

如 图 5-23 所 示 , 基 于 网 络 的 虚拟 化 方法 是 在 网 络 设备 之 间 实 现存 储 虚 拟 化 功能 , 它 将 
类 似 于 卷 管 理 的 功能 扩展 到 整个 存储 网 络 ,负责 管理 Host 视图 、 共 享 存储 资源 ,数据 复制 、 
数据 迁移 及 远程 备份 等 ,并 对 数据 路 径 进行 管理 避免 性 能 瓶颈 。 它 的 实现 方式 通过 在 存储 
域 网 (SAN) 中 添加 虚拟 化 引擎 实现 。 通 常 又 分 成 以 下 几 种 实现 方式 : 基于 互联 设备 的 虚拟 
化 、 基 于 交换 机 的 虚拟 化 和 基于 路 由 器 的 虚拟 化 。 基 于 网 络 的 存储 虚拟 化 的 主要 用 途 在 于 ， 
对 异 构 存 储 系统 整合 和 统一 数据 管理 。 常 见 产品 如 H3C 的 IV 系列 .IBM 的 SVC、EMC 的 
VPLEX。 基 于 网 络 的 存储 虚拟 化 主要 有 如 下 优势 和 劣势 : 


图 5-23 基于 网 络 的 存储 虚拟 化 
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优点 : (1) 与 主机 无 关 , 不 占用 主机 资源 ; (2) 能 够 支持 异 构 主 机 、 异 构 存 储 设备 ; (3) 使 
不 同 存储 设备 的 数据 管理 功能 统一 ; (4) 构 建 统一 管理 平台 ,可 扩展 性 好 。 

缺点 :(1) 部 分 厂商 数据 管理 功能 弱 , 难 以 达到 虚拟 化 统一 数据 管理 的 目的 ; (2) 部 分 
厂商 产品 成 熟 度 较 低 ,仍然 存在 和 不 同 存储 和 主机 的 兼容 性 问题 。 

5. 基于 存储 设备 的 存储 虚拟 化 

基于 存储 设备 的 存储 虚拟 化 方法 依赖 于 提供 相关 功能 的 存储 模块 ,如 图 5-24 所 示 , 它 
的 实现 方式 是 ,在 存储 控制 器 上 添加 虚拟 化 功能 (虚拟 化 引擎 ) ,常见 于 中 高 端 存储 设备 。 基 
于 存储 设备 的 存储 虚拟 化 的 主要 用 途 在 于 ,在 同一 存储 设备 内 部 ,进行 数据 保护 和 数据 迁 
移 。 主 要 有 如 下 优势 和 劣势 : 


图 5-24 基于 存储 设备 的 存储 虚拟 化 


优点 : (1) 与 主机 无 关 , 不 占用 主机 资源 ; (2) 数 据 管理 功能 丰富 。 

缺点 : (1) 一 般 只 能 实现 对 本 设备 内 磁盘 的 虚拟 化 ; (2) 不 同 厂商 间 的 数据 管理 功能 不 
能 互 操作 ; (3) 多 套 存储 设备 需 配置 多 套数 据 管理 软件 ,成 本 较 高 。 

6. 存储 虚拟 化 技术 对 比 

不 同 的 存储 虚拟 化 技术 都 有 其 适用 场景 和 优势 ,基于 主机 的 存储 虚拟 化 技术 主要 使 用 
在 不 同 磁盘 阵列 之 间 做 数据 镜像 保护 ,而 基于 存储 设备 和 基于 网 络 的 存储 虚拟 化 技术 常用 
于 数据 中 心 异 构 资源 管理 ,或 用 于 异 构 数 据 的 容 灾 备份 。 表 5-20 给 出 了 三 种 存储 虚拟 化 技 
术 各 种 特性 的 对 比 。 


表 5-20 存储 虚拟 化 技术 对 比 


比较 内 容 基于 主机 基于 存储 设备 基于 网 络 
存储 视图 一 致 性 差 好 好 
单 点 管理 否 是 是 
主机 是 否 安装 管理 软件 | 需要 不 需要 不 需要 
独立 于 主机 或 存储 设备 | 非 独立 非 独立 独立 
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比较 内 容 基于 主机 基于 存储 设备 基于 网 络 
统一 存 依 池 是 是 是 
存储 分 配 灵活 性 x 好 好 
性 能 E: x 好 
SAN 扩展 性 E: 好 好 
SAN 高 可 用 性 x 好 好 
SAN KEHE * 好 好 
相对 价格 [: 高 让 
应 用 案例 多 ^ > 
panpe E 异 构 存储 系统 整合 和 | 异 构 存储 系统 整合 和 
主要 用 途 一 数据 管理 (如 容 统一 数据 管理 (如 容 灾 
灾 备 份 ) 备份 
保护 
主机 已 采用 SF 卷 ( 即 Storage " 
Foundation, 一 种 磁盘 管理 工具 ) | 系统 中 包括 自 带 虚拟 sp be 
— 管理 ,需要 新 接 多 台 存储 设备 ; obe NM | a MaA Aa 
存储 系统 中 包含 异 构 阵 列 设备 ;| eS FAL A Dir 
业务 持续 能 力 与 数据 吞吐 要 求 | 中 低 端 存储 设备 : 
高 时 间 保证 
较 高 
5.3 对象 存储 技术 


随 着 网 络 技术 的 发 展 ,网 络 化 存储 逐渐 成 为 主流 技术 。 其 需要 解决 的 主要 问题 有 : 提 
供 高 性 能 存储 ,在 T/O 级 和 数据 春 吐 率 方面 能 满足 成 百 上 千 台 集群 服务 器 访问 请 求 ; 提供 
安全 的 共享 数据 访问 ,便于 集群 应 用 程序 的 编写 和 存储 的 负载 均衡 ; 提供 强大 的 容错 能 力 ， 
确保 存储 系统 的 高 可 用 性 。 

而 主流 网 络 存储 结构 的 问题 主要 在 于 : (1) 存 储 区 域 网 (SAN) 具 有 高 性 能 容错 性 等 优 
点 ,但 缺乏 安全 共享 ; (2) 网 络 附加 存储 (NAS) 具 有 扩展 性 ,支持 共享 ,但 缺乏 高 性 能 。 

对 象 存 储 是 一 种 块 和 文件 之 外 的 存储 形式 ,对 象 存储 体系 结构 提供 了 一 个 带 有 NAS 
系统 的 传统 的 文件 共享 和 管理 特征 的 单 系统 映像 Csingle-system-image) 文 件 系 统 , 并 改进 
了 SAN 的 资源 整合 和 可 扩展 的 性 能 。 目 前 对 象 存储 系统 已 成 为 Linux 集群 系统 高 性 能 存 
储 系统 的 研究 热点 ,如 Panasas 公司 的 Object Base Storage Cluster System 系统 和 Cluster 
File Systems 公司 的 Lustre 等 。 


对 象 存 储 架 构 


对 象 存储 的 核心 是 将 数据 通路 (数据 读 或 写 ) 和 控制 通路 (元 数据 ) 分 离 , 并 且 基 于 对 象 
存储 设备 (Object-based Storage Device, OSD) 构 建 存储 系统 ,每 个 对 象 存储 设备 具有 一 定 
的 智能 ,能 够 自动 管理 其 上 的 数据 分 布 。 对 象 存 储 结构 由 对 象 \ 对 象 存储 设备 、 元 数据 服务 
器 、 对 象 存 储 系统 的 客户 端 四 部 分 组 成 ,图 5-25 示 出 了 基本 的 对 象 存储 架构 。 


553.1 
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Client 


并 行 的 文件 
访问 


目录 操作 
并 行 的 元 
数据 访问 


恢复 ， 文 件 状态 
查询 和 文件 创建 


图 5-25 ”对象 存 储 架 构 


5.3.2 传统 块 存储 与 对 象 存储 


在 传统 的 存储 系统 中 用 文件 或 块 作为 基本 的 存储 单位 , 块 设备 要 记录 每 个 存储 数据 块 
在 设备 上 的 位 置 ; 而 在 对 象 存储 系统 中 ,对 象 是 数据 存储 的 基本 单元 ,Object 维护 自己 的 属 
性 ,从 而 简化 了 存储 系统 的 管理 任务 ,增加 了 灵活 性 ,在 存储 设备 中 ,所 有 对 象 都 有 一 个 对 象 
标识 ,通过 对 象 标识 OSD 命令 访问 该 对 象 。 如 图 5-26 Bros ,在 块 存 储 中 ,数据 以 固定 大 小 
块 形式 存储 ,而 在 对 象 存储 中 ,数据 则 是 以 对 象 为 单位 存储 ,其 中 对 象 没 有 固定 大 小 。 
Block-Based Disk Object-Based Disk 


图 5-26 ”传统 块 存储 与 对 象 存储 


5.3.3 对 象 


对 象 是 系统 中 数据 存储 的 基本 单位 ,图 5-27 给 出 了 对 象 的 一 些 性 质 ,每 个 Object 都 是 
数据 和 数据 属性 集 的 综合 体 ,数据 属性 可 以 根据 应 用 的 需求 进行 设置 ,包括 数据 分 布 、 服 务 
质量 等 。 

对 象 包含 了 文件 数据 以 及 相关 的 属性 信息 ,可 以 进行 自我 管理 。 如 图 5-28, 对 象 主要 
包括 : 基本 存储 单元 ,名 字 空 间 , 对 象 ID, 数 据 , 元 数据 等 ,元 数据 类 似 于 inode, 描 述 了 对 象 
在 磁盘 上 的 块 分 布 ,对 象 存 储 就 是 实现 对 象 具 有 高 性 能 、 高 可 靠 性 、 跨 平台 以 及 安全 的 数据 
共享 的 存储 体系 ,是 块 和 文件 之 外 的 存储 形式 。 图 5-29 给 出 了 对 象 存储 的 文件 组 织 形式 ， 
可 以 看 出 物理 存储 层 与 巡 辑 存储 层 的 耦合 度 大 大 降低 ,并 且 对 象 的 扁平 化 存储 使 得 系统 具 
有 易 扩 展 等 特点 。 
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Object-Based Disk 
Object 
7 An Object 
Metadata: 
creation date/time; ownership, size... 
Attributes-inferred: s 42 
access pattems, content, indexes... EIC 
Attributes-user supplied: Length: 512 
retention, QoS... 
E 5-27 对 象 的 组 成 5-28 对 象 包含 一 定 的 元 数据 
Virtual View A Virtual View B. 
File names/inodes Objects/OIDs 
1 
1 
Traditional Virtual 
Hierarchical 
图 5-29 对 象 存储 
分 布 元 数据 传统 的 存储 结构 元 数据 服务 器 通常 提供 两 个 主要 功能 。 
COD 为 计算 节点 提供 一 个 存储 数据 的 逻辑 视图 (Virtual File System, VFS 层 )、 文 件 名 
列表 及 目录 结构 。 


(2) 组 织物 理 存 储 介质 的 数据 分 布 (inode 层 )。 对 象 存 储 结构 将 存储 数据 的 逻辑 视图 
与 物理 视图 分 开 , 并 将 负载 分 布 ,避免 元 数据 服务 器 引起 的 瓶颈 (如 NAS 系统 )。 元 数据 的 
VES 部 分 通常 是 元 数据 服务 器 的 10% 的 负载 , 剩 下 的 90% T. fE Cinode 部 分 ) 是 在 存储 介质 
块 的 数据 物理 分 布 上 完成 的 。 在 对 象 存储 结构 inode 工作 分 布 到 每 个 智能 化 的 OSD, 每 个 
OSD 负责 管理 数据 分 布 和 检索 ,这 样 90%% 的 元 数据 管理 工作 分 布 到 智能 的 存储 设备 ,从 而 
提高 了 系统 元 数据 管理 的 性 能 。 另 外 ,分 布 的 元 数据 管理 ,在 增加 更 多 的 OSD 到 系统 中 时 ， 


可 以 同时 增加 元 数据 的 性 能 和 系统 存储 容量 。 


并 发 数据 访问 对 象 存 储 体系 结构 定义 了 一 个 新 的 .更 加 智能 化 的 磁盘 接口 OSD。OSD 
是 与 网 络 连接 的 设备 , 它 自 身 包含 存储 介质 ,如 磁盘 或 磁带 ,并 具有 足够 的 智能 可 以 管理 本 
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地 存储 的 数据 。 计 算 节点 直接 与 OSD 通信 ,访问 它 存 储 的 数据 ,由 于 OSD 具有 智能 ,因此 
不 需要 文件 服务 器 的 介入 。 如 果 将 文件 系统 的 数据 分 布 在 多 个 OSD 上 , 则 聚合 1/O 速率 和 
数据 春 吐 率 将 线性 增长 ,对 绝 大 多 数 Linux 集群 应 用 来 说 ,持续 的 1/0 聚合 带宽 和 春 吐 率 
对 较 多 数目 的 计算 节点 是 非常 重要 的 。 对 象 存储 结构 提供 的 性 能 是 目前 其 他 存储 结构 难以 
达到 的 ,如 ActiveScale 对 象 存储 文件 系统 的 带宽 可 以 达到 10GB/s。 


5.3.4 对 象 存储 系统 组 成 


对 象 存储 系统 有 以 下 几 个 重要 组 成 部 分 : 

COD 对 象 (Object) : 包含 了 文件 数据 以 及 相关 的 属性 信息 ,可 以 进行 自我 管理 。 

(2) OSD(Object-based Storage Device) : 一 个 智能 设备 ,是 Object 的 集合 。 

(3) 文件 系统 : 文件 系统 运行 在 客户 端 上 ,将 应 用 程序 的 文件 系统 请 求 传输 到 MDS 和 
OSD LE. 

(4) 元 数据 服务 器 (Metadata Server. MDS): 系统 提供 元 数据 .Cache 一 致 性 等 服务 。 

G) 网 络 连 接 : 网 络 连接 是 对 象 存储 系统 的 重要 组 成 部 分 。 它 将 客户 端 .MDS 和 OSD 
连接 起 来 ,构成 了 一 个 完整 的 系统 对 象 存储 的 基本 单元 。 每 个 Object 是 数据 和 数据 属性 集 
的 综合 体 。 数 据 属 性 可 以 根据 应 用 的 需求 进行 设置 ,包括 数据 分 布 , 服 务 质 量 等 。 在 传统 的 
存储 中 , 块 设备 要 记录 每 个 存储 数据 块 在 设备 上 的 位 置 。Obiect 维护 自己 的 属性 ,从 而 简 
化 了 存储 系统 的 管理 任务 ,增加 了 灵活 性 。Object 的 大 小 可 以 不 同 , 可 以 包含 整个 数据 结 
构 , 如 文件 .数据库 表 项 等 。 

1. HR 

对 象 根据 职责 的 不 同 分 为 多 种 类 型 ,便于 管理 ,如 图 5-30 所 示 , 对 象 按照 其 职责 、 功 能 
等 可 以 分 为 根 对 象 (Root Object)、 分 区 对 象 (Partition Object)、 集 合 对 象 (Collection 
Object) HPX% (User Object) F ; 

A) Root Object: 最 高 层次 的 对 象 ,每 个 设备 上 只 有 一 个 , 指 的 就 是 OSD 本 身 ; 

(2) Partition Object: Root Object 之 下 的 对 象 , 每 个 设备 上 可 以 有 多 个 ,包含 了 具有 相 
同 的 安全 性 和 空间 管理 特性 的 所 有 对 象 ; 

(3) Collection Object: Partition Object 之 下 的 对 象 ,每 个 设备 上 可 以 有 和 多 个 ,包含 了 一 
组 具有 相同 属性 的 用 户 对 象 , 例 如 所 有 的 . mp3 对 象 ; 

(4) User Object: Collection Object 之 下 的 对 象 ,每 个 设备 上 可 以 有 多 个 ,由 客户 端 或 
者 应 用 通过 SCSI 命令 创建 的 对 象 。 

存储 设备 都 包含 一 个 唯一 的 RootObject。 此 Object 中 包含 了 存储 设备 的 全 局 属性 , 包 
Tfi GroupObject 数目 、UserObject 数目 、 服 务 特性 等 ,由 存储 设备 负责 维护 。GroupObject 
对 UserObject 进行 管理 ,其 中 包括 了 一 个 UserObject 列表 、 最 大 可 用 的 UserObject 数目 、 
当前 Group 的 容量 等 。GroupObject 的 默认 属性 从 RootObject 中 继承 而 来 ,所 包含 的 数据 
是 当前 可 使 用 的 ObjectID. UserObject 存放 具体 数据 的 Object 类 型 ,每 个 UserObject 都 
包括 用 户 数据 、 存 储 属性 和 用 户 属性 。UserObject 中 的 用 户 数据 同 传统 存储 系统 中 的 文件 
数据 是 相同 的 。 存 储 属性 则 用 来 决定 Object 在 磁盘 上 的 块 分 布 ,包括 逻辑 长 度 、ObjectID 
等 。 用 户 属性 则 定义 了 Object 拥有 者 .访问 控制 列表 等 属性 信息 。 
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Object Types 


Root Object(OSD) 


Partition Object 
User Object 


Collection Object 


图 5-30 ”对象 的 类 型 


2. OSD(Object-based Storage Device) 

每 个 OSD 都 是 一 个 智能 设备 ,具有 自己 的 存储 介质 、 处 理 器 、 内 存 以 及 网 络 系 统 等 , 负 
责 管理 本 地 的 Object, 是 对 象 存储 系统 的 核心 。OSD 同 块 设备 的 不 同 不 在 于 存储 介质 ,而 
在 于 两 者 提供 的 访问 接口 。 

OSD 的 主要 功能 包括 数据 存储 和 安全 访问 。 目 前 国际 上 通常 采用 刀片 式 结构 实现 对 
象 存储 设备 。 

OSD 提供 三 个 主要 功能 : 

(1) 数据 存储 。OSD 管理 对 象 数据 ,并 将 它们 放置 在 标准 的 磁盘 系统 上 ,OSD 不 提供 
块 接口 访问 方式 ,Client 请 求 数据 时 用 对 象 ID、 偏 移 进行 数据 读 写 。 

(2) 智能 分 布 。OSD 用 其 自身 的 CPU 和 内 存 优化 数据 分 布 , 并 支持 数据 的 预 取 。 由 
于 OSD 可 以 智能 地 支持 对 象 的 预 取 , 从 而 可 以 优化 磁盘 的 性 能 。 

(3) 每 个 对 象 元 数据 的 管理 。OSD 管理 存储 在 其 上 的 对 象 的 元 数据 ,该 元 数据 与 传统 
的 inode 元 数据 相似 ,通常 包括 对 象 的 数据 块 和 对 象 的 长 度 。 而 在 传统 的 NAS 系统 中 ,这 
些 元 数据 是 由 文件 服务 器 维护 的 ,对 象 存储 架构 将 系统 中 主要 的 元 数据 管理 工作 由 OSD 来 
完成 ,降低 了 Client 的 开销 。 

3. 文件 系统 

文件 系统 对 用 户 的 文件 操作 进行 解释 ,并 在 元 数据 服务 器 和 OSD 间 通 信 , 完 成 所 请 求 
的 操作 。 现 有 的 应 用 对 数据 的 访问 大 部 分 都 是 通过 POSIX 文件 方式 进行 的 ,对 象 存储 系统 
提供 给 用 户 的 也 是 标准 的 POSIX 文件 访问 接口 。 接 口 具有 和 通用 文件 系统 相同 的 访问 方 
式 ,同时 为 了 提高 性 能 .也 具有 对 数据 的 Cache 功能 和 文件 的 条 带 功能 。 同 时 ,文件 系统 必 
须 维护 不 同 客户 端 上 Cache 的 一 致 性 ,保证 文件 系统 的 数据 一 致 。 一 个 文件 系统 读 访问 过 
BUT. 

(1) 客户 端 应 用 发 出 读 请 求 ; 

(2) 文件 系统 向 元 数据 服务 器 发 送 请 求 ,获取 要 读 取 的 数据 所 在 的 OSD; 

(3) 然后 直接 向 每 个 OSD 发 送 数 据 读 取 请 求 ; 

(4) OSD 得 到 请 求 以 后 ,判断 要 读 取 的 Object, 并 根据 此 Object 要 求 的 认证 方式 ,对 客 
户 端 进行 认证 ,如 果 此 客户 端 得 到 授权 , 则 将 Object 的 数据 返回 给 客户 端 ; 
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(5) 文件 系统 收 到 OSD 返回 的 数据 以 后 , 读 操 作 完 成 。 

4. 元 数据 服务 器 (Metadata Server) 

MDS 控制 Client 与 OSD 对 象 的 交互 ,主要 提供 以 下 几 个 功能 : 

CD 对 象 存储 访问 : MDS 构造 、 管 理 描述 每 个 文件 分 布 的 视图 ,允许 Client 直接 访问 对 
象 。MDS Jj Client 提供 访问 该 文件 所 含 对 象 的 能 力 ,OSD 在 接收 到 每 个 请 求 时 将 先 验证 
该 能 力 ,然后 才 可 以 访问 。 

(2) 文件 和 目录 访问 管理 : MDS 在 存储 系统 上 构建 一 个 文件 结构 ,包括 限额 控制 .目录 
和 文件 的 创建 和 删除 .访问 控制 等 。 

(3) Client Cache 一 致 性 : 为 了 提高 Client 性 能 ,在 对 象 存储 系统 设计 时 通常 支持 
Client F HY Cache。 由 于 引入 Client 方 的 Cache, 带 来 了 Cache 一 致 性 问题 ,MDS 支持 基于 
Client 的 文件 Cache, 当 Cache 的 文件 发 生 改 变 时 ,将 通知 Client 刷新 Cache, 从 而 防止 
Cache 不 一 致 引 发 的 问题 。 

元 数据 服务 器 的 特点 主要 有 : 客户 端 采用 Cache 来 缓存 数据 , 当 多 个 客户 端 同 时 访问 
某 些 数据 时 ,MDS 提供 分 布 的 锁 机 制 来 确保 Cache 的 一 致 性 。 为 了 增强 系统 的 安全 性 ， 
MDS 为 客户 端 提供 认证 方式 。OSD 将 依据 MDS 的 认证 来 决定 是 否 为 客户 端 提供 服务 等 。 


5.4 存储 技术 趋势 


5.4.1 存储 虚拟 化 


存储 虚拟 化 是 目前 以 及 未 来 的 存储 技术 热点 , 它 其 实 并 不 算是 什么 全 新 的 概念 ， 
RAID,LVM,SWAP, VM, 文件 系统 等 都 归属 于 其 范畴 。 

存储 的 虚拟 化 技术 有 很 多 优点 ,比如 提高 存储 利用 效率 和 性 能 ,简化 存储 管理 复杂 性 ， 
绿色 节省 ,降低 运营 成 本 等 。 

目前 最 新 的 存储 虚拟 化 技术 有 自动 分 级 存储 (HSM) 、 自 动 精 减 配置 (Thin provision), 
云 存 储 (Cloud storage) ,分 布 式 文件 系统 (Distributed file system) ,另外 还 有 诸如 动态 内 存 
分 区 .SAN 和 NAS 虚拟 化 。 

虚拟 化 可 以 柔性 地 解决 不 断 出 现 的 新 存储 需求 问题 ,因此 ,我 们 可 以 断言 存储 虚拟 化 仍 
将 是 未 来 存储 的 发 展 趋势 之 一 。 


5.4.2 固态 硬盘 


固态 硬盘 (Solid State Disk,SSD) 是 目前 倍 受 存储 界 广泛 关注 的 存储 新 技术 , 它 被 看 作 
是 一 种 革命 性 的 存储 技术 ,可 能 会 给 存储 行业 甚至 计算 机 体系 结构 带 来 深刻 变革 。 

SSD 与 传统 磁盘 不 同 , 它 是 一 种 电子 器 件 而 非 物理 机 械 装 置 , 它 具有 体积 小 .能 耗 小 、 
抗 干扰 能 力 强 、 寻 址 时 间 极 小 (甚至 可 以 忽略 不 计 ) .IOPS 高 .1/O 性 能 高 等 特点 。 

对 于 存储 系统 来 说 ,SSD 最 大 突破 是 大 幅 提高 了 IOPS, 摩 尔 定理 的 效力 再 次 显现 , 通 
过 简单 地 用 SSD 蔡 换 传统 磁盘 ,就 可 能 可 以 达到 和 超越 综合 运用 缓存 、 预 读 、 高 并 发 、 数 据 
局 部 性 、 磁 盘 调 度 策略 等 软件 技术 的 效用 。 
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SSD 已 经 开始 被 广泛 接受 并 应 用 ,当前 主要 的 限制 因素 包括 价格 、 使 用 寿命 . 写 性 能 抖 
动 等 。 从 最 近 两 年 的 发 展 情况 来 看 ,这 些 问 题 都 在 不 断 地 改善 和 解决 ,SSD 的 发 展 和 广泛 
应 用 将 势不可挡 。 


5.4.3 重复 数据 删除 


重复 数据 删除 (Deduplication) 是 一 种 目前 主流 且 非 常 热门 的 存储 技术 ,可 对 存储 容量 
进行 有 效 优化 。 它 通过 删除 数据 集中 重复 的 数据 ,只 保留 其 中 一 份 , 从 而 消除 完 余 数据 。 

Dedupe 技术 可 以 帮助 众多 应 用 降低 数据 存储 量 ,节省 网 络 带宽 ,提高 存储 效率 、 减 小 备 
份 窗口 ,节省 成 本 。Dedupe 技术 目前 大 量 应 用 于 数据 备份 与 归档 系统 ,因为 对 数据 进行 多 
次 备份 后 ,存在 大 量 重复 数据 。 事 实 上 , 它 也 可 以 用 于 很 多 场合 ,包括 在 线 数据 、 近 线 数据 、 
离线 数据 存储 系统 。 

信息 呈现 的 指数 级 增长 方式 给 存储 容量 带 来 巨大 的 压力 ,而 Dedupe 是 最 为 行 之 有 效 
的 解决 方案 ,因此 固然 其 有 一 定 的 不 足 , 它 大 行 其 道 的 技术 趋势 无 法 改变 。 更 低 碰撞 概率 的 
hash 函数 多核 .GPU、SSD 等 ,这 些 技术 推动 Dedupe 走向 成 熟 , 由 作为 一 种 产品 而 转向 作 
为 一 种 功能 ,逐渐 应 用 到 近 线 和 在 线 存 储 系统 。 


5.4.4 语义 化 检索 


数据 检索 目前 主要 分 为 两 类 ,一 是 基于 文件 名 ,二 是 基于 文件 内 容 。 主 流 文件 系统 的 数 
据 检索 都 是 基于 文件 名 进行 的 ,桌面 搜索 引擎 则 综合 文件 名 和 文件 内 容 进行 检索 ,前 者 遍历 
文件 系统 元 数据 ,后 者 需要 解析 文件 内 容 , 它 们 都 是 通过 关键 字 匹 配 来 实现 检索 。 显 然 ,这 
两 类 检索 的 语义 是 非常 有 限 的 ,与 人 类 思维 方式 有 着 很 大 的 区 别 。 

存储 系统 完全 可 以 实现 语义 化 的 检索 ,通过 文件 属性 和 关系 来 检索 文件 ,并 用 关系 网 络 
(类 似 社会 化 网 络 ) 来 表示 检索 结果 。 这 种 方式 语义 上 更 加 丰富 ,检索 结果 更 加 精确 ,也 更 加 
符合 人 类 的 思维 方式 。 

面 对 海 量 的 数据 ,精确 .高 效 地 检索 出 自己 需要 的 数据 是 第 一 步 ,语义 化 检索 符合 存储 
的 技术 发 展 趋势 。 


5.4.5 存储 智能 化 


人 工 智能 是 计算 机 的 发 展 方向 ,这 是 个 理想 而 艰巨 的 目标 。 对 于 存储 系统 来 说 ,智能 化 
代表 着 自动 化 . 自 适应 、 兼 容 性 .自治 管理 、 弹 性 应 用 ,通过 对 系统 的 监控 .分析 和 挖掘 来 发 现 
数据 应 用 的 特点 和 使 用 者 的 行为 模式 并 动态 调整 配置 ,从 而 达到 最 佳 的 运行 状态 。 

存储 智能 化 可 以 分 别 在 存储 系统 栈 中 的 不 同 层次 实现 ,包括 磁盘 ,RAID、 卷 管理 器 、 文 
HERH NAS 系统 、 应 用 系统 ,从 而 形成 系统 的 存储 智能 化 。 

存储 优化 是 存储 技术 发 展 的 目的 ,为 实现 更 高 效 的 存储 ,产生 了 很 多 的 研究 方向 ,如 重 
复数 据 删除 .数据 压缩 等 ,虽然 我 们 已 经 取得 了 一 定 的 成 果 , 但 离 真 正 的 目标 差距 还 很 大 , 存 
储 学 术 界 和 业界 都 在 为 此 而 努力 。 智 慧 的 存储 ,让 数据 在 整个 信息 生命 周期 内 有 序 、 高 效 、 
自治 ,存储 效用 最 大 化 、 简 化 管理 ,减少 人 工 干预 ,这 些 都 是 存储 的 大 趋势 。 特 别 是 随 着 大 数 
据 应 用 的 深入 和 人 工 智能 技术 的 成 熟 ,存储 智能 化 越 来 越 成 为 存储 技术 的 发 展 趋势 。 


第 5 章 云 存 储 技术 as 


5.4.6 混合 存储 系统 


大 数据 和 云 计算 环境 下 海量 增长 的 数据 对 存储 系统 的 超 高 容量 和 体系 结构 带 来 了 极 大 
的 挑战 。 目 前 存储 系统 的 发 展 趋向 于 大 容量 、 低 成 本 和 高 性 能 ,然而 任何 单一 的 存储 器 件 如 
传统 的 机 械 磁 盘 (HDD) 、 固 态 硬盘 (SSD) 、 非 易 失 型 性 随机 存储 器 等 由 于 其 固有 的 物理 特 
性 的 限制 ,并 不 能 满足 以 上 的 需求 。 将 不 同 的 存储 介质 混合 组 合成 高 效 的 存储 系统 是 一 个 
好 的 解决 方法 ,固态 硬盘 作为 一 种 高 可 靠 性 、 低 能 耗 、 高 性 能 的 存储 器 被 越 来 越 广泛 地 运用 
到 混合 存储 系统 。 通 过 将 固态 硬盘 与 传统 磁盘 进行 组 合 , 利 用 固态 硬盘 的 高 性 能 和 传统 磁 
盘 低 成 本 大 容量 的 特点 ,能 够 为 用 户 提供 大 容量 的 存储 空间 ,保证 系统 的 高 性 能 ,同时 还 能 
降低 成 本 。 另 一 方面 , 随 着 新 型 存储 器 的 诞生 与 发 展 , 大 量 的 新 型 非 易 失 型 存储 诸如 铁 电 存 
储 器 (Ferroelectric RAM, FeRAM) 、 磁 性 存储 器 (Magnetic RAM. MRAM), Fi Jit $8 E 7] E 
存储 器 (Spin-Transfer Torque RAM, STT-RAM), 、 相 变 存 储 器 (Phase Change Memory, 
PCM) , 阻 变 存储 器 (ResistIve RAM,RRAMD)、 赛 道 存储 器 (Domain-Wall Memory, DWM) 
等 的 出 现 , 给 未 来 的 混合 存储 系统 带 来 了 新 的 机 遇 。 利 用 新 型 存储 器 良好 的 写 性 能 .固态 硬 
盘 良 好 的 读 性 能 和 传统 磁盘 大 容量 低 成 本 的 特性 组 合成 的 混合 存储 系统 可 能 是 未 来 发 展 的 
方向 。 


习题 


. 简 述 存储 组 网 的 几 种 形式 (DAS、NAS、SAN), 及 其 适用 范围 。 
. 简 述 RAID 的 技术 原理 。 

. 简 述 磁盘 热 备 的 技术 原理 。 

. 简 述 快照 技术 原理 。 

. 简 述 分 布 式 块 存储 的 概念 及 其 优 缺 点 。 

. 简 述 分 布 式 对 象 存储 的 概念 及 原理 。 

. 简 述 NoSQL 的 概念 及 原理 。 

. 简 述 存储 虚拟 化 的 几 种 形式 ,及 其 适用 范围 。 

. 查阅 相关 资料 ,了 解 重复 数据 删除 及 数据 压缩 的 原理 。 
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大 数据 技术 原理 与 平台 


6.1 大 数据 概述 


本 章 首先 介绍 大 数据 的 背景 .定义 和 特征 ; 然后 重点 阐述 了 主流 的 大 数据 存储 平台 和 
三 种 计算 模式 技术 原理 , 同时 对 Cloudera Impala、Hortonworks Data Platform 和 
HadoopDB 三 个 大 数据 分 析 管 理 平台 进行 了 详细 讨论 ; 接着 给 出 基于 MapReduce, Spark 
的 大 数据 并 行 计算 编程 实例 ; 最 后 展望 大 数据 研究 与 发 展 方向 。 


6.1.1 大 数据 产生 的 背景 


早 在 1980 年 ,著名 未 来 学 家 阿尔 文 。 托 夫 勒 便 在 (第 三 次 浪潮 ) 一 书 中 ,将 大 数据 热情 
地 赞颂 为 “第 三 次 浪潮 的 华 彩 乐章 ”。 

以 前 传统 数据 处 理 中 ,单个 计算 机 往往 性 能 很 强劲 ,可靠 性 高 但 是 造价 也 很 昂贵 ,在 当 
时 可 以 单 以 一 台 这 样 的 计算 机 就 处 理 完 所 需 数 据 。 当 今世 界 ,数据 日 益 增长 且 增 长 速度 日 
益 加 快 。 这 其 中 的 数据 包括 人 们 在 更 深入 了 解 自然 的 过 程 中 所 需要 的 数据 以 及 人 类 自己 在 
各 种 社会 活动 中 产生 的 海量 数据 。 特 别 是 后 者 ,由 于 计算 机 在 各 个 领域 的 使 用 越 来 越 广泛 ， 
越 来 越 多 的 人 类 活动 可 以 被 计算 机 转化 成 数据 记录 下 来 ,其 产生 的 速度 更 是 日 益 加 剧 ,这 其 
中 包括 通信 和 领域 中 的 上 网 记录 、GPS 位 置 记录 、 医 学 领域 中 的 手术 详细 记录 、 社 会 保障 领域 
的 各 种 记录 等 。 现 在 ,数据 已 经 爆炸 增长 到 足以 引发 全 世界 的 一 次 技术 变革 。 于 是 ,第 三 
次 浪潮 ”一 一 大 数据 技术 应 运 而 生 。 


6.1.2 大 数据 的 定义 


大 数据 一 词 由 英文 “Big Data” 翻 译 而 来 ,是 最 近 几 年 兴起 的 概念 , 它 目前 还 没有 一 个 统 
一 的 定义 。 相 比 于 过 去 的 “信息 爆炸 ?的 概念 , 它 更 强调 数据 量 的 “大 ”。 大 数据 的 “大 ?是 相 
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对 而 言 的 ,是 指 所 处 理 的 数据 规模 巨大 到 无 法 通过 目前 主流 数据 库 软 件 工 具 , 在 可 以 接受 的 
时 间 内 完成 抓 取 、 储 存 、 管 理 和 分 析 , 并 从 中 提取 出 人 类 可 以 理解 的 资讯 。 这 个 “大 ”是 与 时 
俱 进 的 ,不 能 以 超过 多 少 太 字 节 的 数据 量 来 界定 大 数据 与 普通 数据 。 随 着 人 类 大 数据 处 理 
技术 的 不 断 进 步 ,大 数据 的 标准 也 不 断 提高 。 

相对 于 过 去 的 “海量 数据 ”概念 而 言 , 大 数据 还 有 一 个 数据 类 型 复杂 多 变 的 特点 。 互 联 
网 上 流动 的 各 种 数据 类 型 杀 异 ,收集 和 处 理 这 些 数据 ,特别 是 非 结构 化 数据 也 是 大 数据 研究 
的 一 个 重要 方面 。 业 界 普 遍 认 同 大 数据 具有 4 个 V 特征 (数据 量 大 Volume、 多 类 型 
Variety, (KHER Velocity 与 高 价值 Value)。 简 而 言 之 ,大 数据 可 以 被 认为 是 数据 量 巨 
大 有 结构 复杂 多 变 的 数据 集合 。 


6.1.3 大 数据 的 4V 特征 


第 一 个 特征 Volume 是 大 数据 的 首要 特征 ,数据 体 量 巨大 。 当 今世 界 需要 进行 及 时 处 
理 以 提取 有 用 信息 的 数据 数量 级 已 经 从 TB 级 别 , 跃 升 到 PB 甚至 EB 级 别 。 随 着 计算 机 深 
入 到 人 类 各 个 领域 ,数据 增长 速度 与 日 俱 增 , 数 据 的 基数 也 在 不 断 增 大 ,从 前 的 GB 已 经 是 
很 大 的 一 个 数据 量 了 ,现在 看 来 一 台 普 通 的 计算 机 就 能 在 可 以 接受 的 时 间 内 完成 GB 级 数 
据 的 运算 。 然 而 如 果 单 靠 单 台 计算 机 的 计算 能 力 , 更 大 量 的 数据 会 很 快 将 我 们 洽 没 在 数据 
的 海洋 中 ,因此 涌现 出 许多 分 布 式 的 大 数据 处 理工 具 。 其 中 最 著名 且 应 用 最 广泛 的 就 是 我 
们 熟悉 的 Hadoop ,近期 著名 互联 网 公司 Facebook 已 经 推出 可 以 进行 EB 级 的 实时 大 数据 
处 理 的 工具 Presto。 

第 二 个 特征 Variety: 数据 类 型 繁多 。 大 数据 的 挑战 不 仅 是 数据 量 的 大 ,也 体现 在 数据 
类 型 的 多 样 化 。 除 了 前 文 提 到 的 网 络 日 志 、 地 理 位 置信 息 等 具有 固定 结构 的 数据 之 外 ,还 有 
视频 、 图 片 等 非 结构 化 数据 。 现 在 ,互联 网 上 出 现 更 多 的 多 媒体 应 用 ,他 们 产生 的 非 结构 数 
据 占 了 大 数据 的 很 大 比重 , 非 结 构 和 半 结 构 数据 正 是 大 数据 处 理 的 难点 所 在 。 

第 三 个 特征 Velocity: 处 理 速度 快 。 信 息 的 价值 在 于 及 时 ,超过 特定 时 限 的 信息 就 失 
去 了 使 用 的 价值 。 大 数据 的 商业 应 用 中 主要 是 分 析 大 量 历史 数据 以 预测 未 来 形势 ,帮助 商 
业 公司 做 出 决策 ,时 间 就 是 金钱 ,处 理 时 间 过 长 就 让 其 失去 了 价值 。 

最 后 一 个 特征 是 Value: 商业 价值 高 ,但 是 价值 密度 低 。 单 个 数据 的 价值 很 低 , 只 有 大 
量 数据 聚合 起 来 处 理 才 能 借助 历史 数据 预测 未 来 走势 ,体现 出 大 数据 计算 的 价值 所 在 。 


6.2 大 数据 存储 平台 


要 对 大 数据 进行 处 理 就 需要 一 个 能 够 存储 得 下 所 有 数据 的 平台 。 由 于 计算 机 硬盘 存储 
技术 发 展 的 速度 远 远 赶不上 大 数据 的 爆炸 式 增长 ,单机 存储 密度 有 限 , 故 分 布 式 存储 就 成 了 
一 个 自然 而 然 的 选择 。 这 一 节 我 们 介绍 一 些 常 用 的 大 数据 存储 平台 。 


6.2.1 HDFS 


1. HDFS 简介 


HDFS( Hadoop Distributed File System) 原 是 Apache 开源 项 目 Nutch 的 组 件 , 现 在 成 
为 Hadoop 的 重要 组 件 , 它 是 一 款 具有 高 容错 性 特点 的 分 布 式 文件 系统 , 它 被 设计 为 可 以 部 
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署 在 造价 低廉 的 主机 集群 上 。 它 将 一 个 大 文件 拆 分 成 固定 大 小 的 小 数据 块 , 分 别 存储 在 集 
群 的 各 个 节点 上 。 因 此 HDFS 可 以 存储 超大 的 数据 集 和 单个 巨大 的 文件 。 这 样 的 分 布 式 
结构 能 够 进行 不 同 节点 的 并 行 读 取 , 提 高 了 系统 的 吞吐 率 。 同 一 个 数据 块 存储 在 不 同 的 数 
据 节点 上 ,保证 了 HDFS 在 节点 失败 时 还 能 继续 提供 服务 ,使 其 具有 了 容错 性 。 

以 下 是 HDFS 的 设计 目标 : 

(1) 检测 和 恢复 硬件 故障 。 硬 件 故障 是 计算 机 不 可 避免 的 一 个 问题 ,特别 是 在 造价 低 
廉 的 硬件 上 ,故障 更 是 时 常 发 生 。 如 果 由 上 百 台 甚至 上 千 台 节点 主机 组 成 集群 ,有 一 个 或 几 
个 节点 出 现 故 障 的 概率 将 会 非常 高 。HDFS 必须 设计 成 为 能 够 容忍 和 恢复 一 定数 量 上 限 的 
失效 节点 才能 保证 其 服务 一 直 可 用 。 

(2) 存储 大 数据 集 。 通 常 一 个 HDFS 文件 可 以 是 GB 到 TB 级 的 , 故 HDFS 对 这 些 大 
文件 存储 做 了 优化 。 同 时 ,一 个 HDFS 集群 可 以 存储 上 千 万 个 文件 。 

(3) 应 用 程序 流 式 地 访问 HDFS 上 面 的 数据 集 。HDFS 被 设计 作为 MapReduce 储存 
平台 ,MapReduce 只 能 进行 批 处 理 , 而 不 是 用 户 交 互 式 的 处 理 , 故 HDFS 不 必 支 持 随机 数据 
访问 。HDFS 注重 的 是 数据 访问 的 吞吐 量 , 而 非 数 据 访 问 的 时 延 , 故 HDFS 不 适合 作为 低 
时 延 的 数据 存储 平台 。 

(4) 由 于 大 部 分 MapReduce 程序 对 HDFS 上 面 的 文件 是 一 次 写 入 、 多 次 读 取 的 , 故 
HDFS 只 需要 提供 文件 的 创建 ,删除 、 写 入 、 读 取 , 不 需要 提供 文件 的 修改 功能 。 因 此 也 降低 
HDFS 在 数据 一 致 性 方面 的 设计 难度 。 

(5) 可 移植 性 。HDFS 由 Java 语言 编写 而 成 , 它 继 承 了 Java 语言 的 操作 系统 和 硬件 平 
台 可 移植 性 。HDFS 在 不 同 平台 上 移植 非常 简便 ,只 需要 修改 少量 配置 文件 即 可 。 

(6) 让 计算 随 数据 的 位 置 而 移动 。 这 样 的 处 理 方式 比 移动 数据 更 加 划算 。HDFS 支持 
让 程序 自己 移动 到 数据 所 在 节点 运行 ,不 但 节省 了 网 络 带宽 ,也 降低 了 硬件 的 负担 。 

2. HDFS 体系 结构 

如 图 6-1 所 示 , HDFS 采用 Master/Slave 结构 模型 ,一 个 HDFS 集群 由 一 个 
NameNode 和 多 个 DataNode 组 成 , 除 此 之 外 还 可 以 有 一 个 Secondary NameNode。 其 中 
NameNode 充当 Master 的 角色 ,管理 文件 系统 的 名 称 空间 以 及 对 客户 端的 访问 操作 进行 控 
制 。DataNode 充当 Slave 的 角色 ,一 个 集群 中 通常 每 个 节点 主机 都 运行 一 个 DataNode 进 
程 ,用 于 管理 HDFS 存储 在 本 机 上 的 那 部 分 数据 。Secondary NameNode 主要 是 用 于 对 
NameNode 的 操作 进行 记录 ,以 便当 NameNode 崩溃 时 进行 恢复 工作 。HDFS 在 用 户 看 来 
就 像 一 个 Linux 原生 文件 系统 , 它 提供 的 Shell 接口 中 各 种 文件 操作 也 类 似 于 Linux。 在 内 
部 , 它 把 一 个 文件 分 割 成 许多 的 块 ,这 些 数据 块 被 分 散 存储 到 集群 中 的 各 个 DataNode 中 。 
由 NameNode 来 执行 文件 系统 中 文件 和 文件 夹 的 打开 、 关 闭 、 重 命名 操作 。NameNode 还 
负责 各 个 数据 块 到 各 个 DataNode 的 布局 和 映射 。DataNode 负责 处 理 来 自 客户 端的 对 
HDFS 本 地 数据 块 的 读 取 和 写 入 操作 。 它 还 负责 对 数据 块 的 生成 .删除 以 及 在 NameNode 
的 指导 下 创建 数据 块 的 副本 。 

NameNode 和 DataNode 都 被 设计 成 为 运行 于 普通 计算 机 的 Java 程序 ,通常 运行 于 
Linux 环境 ,不 过 任何 支持 Java 的 环境 都 可 以 运行 HDFS。 使 用 Java 作为 编写 语言 ,HDFS 
可 以 部 署 在 许多 不 同类 型 的 节点 上 。 一 种 经 典 的 部 署 方法 是 使 用 一 台 节 点 只 运行 
NameNode 程序 ,集群 中 的 其 他 节点 运行 DataNode 程序 。 部 署 中 可 以 在 同一 个 节点 上 运 
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行 多 个 DataNode 程序 ,但 在 实际 应 用 中 这 种 情况 比较 罕见 。 

单个 NameNode 的 设计 大 大 地 简化 了 整个 HDFS 的 结构 ,NameNode 负责 作为 各 种 事 
件 的 决定 者 ,并 存储 了 整个 HDFS 的 元 数据 。 客 户 端 读 取 和 写 和 的 数据 流 并 不 通过 
NameNode, 而 是 DataNode 为 客户 端 指明 数据 块 的 位 置 , 由 客户 端 直接 与 DataNode 通信 进 
行 数据 块 的 读 取 和 写 人 操作 。 


HDFS 结 构 


元 数据 (文件 名 ， 副 本 数 .…) 


Namenode 


元 数据 操作 _- /home/foo/data, 3, … 

E 文件 块 操作 
读 取 Datanodes Datanodes 

- 口 

创建 副 不 [us ^ I 
= F] k 
机 架 1 CA 机 架 2 
CI) 


图 6-1 HDFS 结构 


3. HDFS 副本 策略 

HDFS 副本 放置 策略 对 于 HDFS 可 靠 性 和 性 能 至 关 重 要 。 副 本 放置 策略 关系 到 数据 
的 可 靠 性 .可 用 性 和 网 络 带宽 的 利用 率 。 对 于 副本 放置 策略 的 优化 让 HDFS 在 分 布 式 文件 
系统 中 脱颖而出 ,这 一 调 优 是 需要 大 量 实践 经 验 作为 依托 的 。HDFS 采用 基于 机 架 感 知 的 
副本 放置 策略 ,将 副本 存放 在 不 同 的 机 架 上 , 即 第 一 个 副本 放 在 客户 本 地 节点 上 ,另外 两 个 
副本 随机 放置 在 远程 机 架 上 ,这 样 可 以 防止 当 某 个 机 架 失 效 时 数据 的 丢失 ,如 图 6-2 所 示 。 
在 一 个 数据 中 心中 往往 不 只 有 一 个 机 架 ,对 于 大 部 分 数据 中 心 来 说 ,不 同 机 架 上 节点 之 间 的 
通信 和 需要 经 过 多 个 交换 机 ,其 带宽 比 相同 机 架 节 点 之 间 的 通信 带宽 要 小 。 因 此 ,基于 机 架 感 
知 的 副本 放置 策略 可 以 在 网 络 带宽 和 数据 可 靠 性 之 间 取 得 平 衔 。 


副本 1 — DataNode2 uz 


7T H H DataNode3 


DataNodel 


机 架 1 机 架 2 


图 6-2 通常 采用 的 副本 策略 


HDFS 集群 中 ,由 NameNode 通过 Hadoop 机 架 感 知 确定 每 一 个 DataNode 所 属 机 架 。 
一 个 简单 而 非 最 优 的 策略 就 是 把 所 有 同一 个 数据 块 的 副本 都 放 到 不 同 的 机 架 上 。 这 样 保 证 
了 数据 的 可 靠 性 ,即使 整个 机 架 都 崩溃 了 ,其 他 机 架 上 的 数据 还 是 可 用 的 。 这 样 做 也 在 读 取 
文件 时 充分 利用 了 各 个 机 架 的 网 络 带 宽 , 可 以 做 到 负载 均衡 。 但 是 这 一 策略 存在 问题 有 : 
(1) 在 写 入 时 代价 过 大 , 它 需要 在 不 同 的 机 架 之 间 传 输 大 量 数据 ; (2) 当 本 地 数据 副本 失效 
时 ,从 远程 节点 上 恢复 数据 需要 耗费 大 量 数据 传输 时 间 ; (3) 随 机 选取 存放 数据 的 节点 ,可 
能 会 导致 数据 存储 的 负载 不 均 。 为 此 ,我 们 在 文献 L33] 提 出 了 一 种 改进 的 Hadoop 数据 放 
置 策 略 , 基 于 节点 网 络 距 离 与 数据 负载 来 选择 最 佳 的 远程 机 架 数 据 副 本 的 放置 节点 , 它 既 能 
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实现 数据 存放 的 负载 均衡 ,又 能 实现 良好 的 数据 传输 性 能 。 

对 于 通常 的 应 用 开发 来 说 ,可 以 采用 以 下 策略 : 例如 在 副本 数 为 3 的 集群 中 ,将 一 个 副 
本 保存 到 本 地 机 架 1 的 一 个 节点 1 上 ,第 二 个 副本 保存 到 本 地 机 架 的 一 个 节点 2 上 ,第 三 个 
副本 由 节点 2 传输 复制 到 远程 机 架 2 的 节点 3 上 。 把 三 分 之 二 的 副本 储存 在 本 地 机 架 , 把 
三 分 之 一 的 副本 储存 在 远程 机 架 。 这 样 做 既 保证 了 数据 的 可 靠 性 ,又 节省 了 机 架 之 间 的 网 
络 带 宽 。 一 整个 机 架 崩 溃 的 概率 很 明显 远 远 低 于 单个 节点 的 崩溃 概率 。 一 个 机 架 骨 溃 了 可 
以 由 另 一 机 架 保 证 数据 的 可 用 性 。 

当 接 收 到 HDFS 读 取 请 求 时 ,NameNode 会 分 配 离 请 求 节点 最 近 的 一 个 拥有 该 副本 的 
DataNode 为 其 提供 数据 。 如 此 降低 了 总 体 带 宽 消耗 和 读 取 延迟 。 如 果 存 在 与 请 求 节点 相 
同 机 架 的 可 用 的 DataNode, 这 个 DataNode 会 被 优先 选择 。 如 果 HDFS 集群 是 跨 数据 中 心 
的 ,与 请 求 节点 在 相同 数据 中 心 的 DataNode 会 被 优先 选择 。 

在 集群 启动 时 ,HDFS 集群 会 有 一 段 时 间 进入 安全 模式 (Safemode) ,安全 模式 中 不 会 
有 任何 的 创建 数据 备份 的 工作 ,也 不 能 向 HDFS 写 入 文件 。 在 安全 模式 中 NameNode 由 心 
跳 包 接收 到 来 自 DataNode 的 信息 。 这 些 信 息 包括 了 DataNode 的 节点 状态 和 该 DataNode 
所 管理 的 数据 块 的 备份 数 。 在 NameNode 检查 完 设 定 的 百分比 的 数据 块 时 ,HDFS 集群 退 
出 安全 模式 。 如 车 NameNode 发 现 其 中 存在 没 达到 预 设 定 的 备份 数 的 数据 块 时 ,由 
NameNode 发 起 把 数据 块 备份 到 其 他 DataNode 以 满足 备份 数 的 要 求 。 

4. HDFS 数据 块 

用 HDFS 作为 存储 系统 的 程序 可 以 利用 HDFS 处 理 巨大 的 数据 集 。 通 常 这 些 文件 只 
被 写 人 一 次 ,但 是 进行 多 次 读 取 。 这 个 读 取 通 常 需要 满足 一 定 的 读 取 速度 要 求 。HDFS £F 
对 一 次 读 取 多 次 写 入 的 特点 做 了 优化 。 一 个 HDFS 数据 块 默认 大 小 为 64MB, 一 个 HDFS 
文件 将 被 分 割 成 许多 的 数据 块 ,这 些 数据 块 分 别 存储 在 各 个 DataNode 上 。 

5. HDFS 的 用 户 接口 

HDFS 提供 了 许多 不 同 的 用 户 接口 。HDFS 提供 了 Java 的 API HDFS, 并 且 为 C 语 言 
提供 了 Java API 的 入 口 。 除 此 之 外 ,HDFS 还 为 用 户 提供 了 HTTP 浏览 器 GUI 和 Shell 
命令 接口 ,并 支持 WebDAV 协议 。 

1) FS Shell 

HDFS 可 以 让 用 户 直接 对 HDFS 上 面 的 文件 以 类 似 Linux 的 文件 夹 和 文件 的 组 织 形 
式 进 行 管理 。 它 提供 了 一 个 FS Shell 命令 行 接口 ,用 于 用 户 与 HDFS 的 交互 。FS Shell 的 
语法 类 似 于 我 们 很 熟悉 的 其 他 Linux Shell, FS Shell 可 用 于 需要 使 用 命令 行 脚 本 进行 数据 
处 理 的 程序 编写 中 ,如 表 6-1 所 示 。 

表 6-1 FS Shell 的 命令 行 和 作用 


命 令 行 ft A 
Hadoop dfs -mkdir /foodir 在 HDFS 根 目录 下 创建 文件 夹 foodir 
Hadoop dfs -rmr /foodir 递归 删除 根 目录 下 的 文件 夹 foodir 
Hadoop dfs -cat /foodir/myfile. txt 查看 文件 /foodir/myfile. txt 的 内 容 
2) DFSAdmin 


DFSAdmin 命令 用 于 管理 HDFS 集群 ,这 些 节 点 只 有 HDFS 管理 员 课 余 使 用 。 表 6-2 
列举 了 一 些 使 用 范例 。 
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表 6-2 DFSAdmin 的 命令 行 和 作用 


命令 行 作 用 
Hadoop dfsadmin -safemode enter 强制 进入 安全 模式 
Hadoop dfsadmin -report 查看 DataNode 节点 报告 
Hadoop dfsadmin -refreshNodes 刷新 节点 ,去 除 无 效 节点 ,添加 新 增 节 点 
3) HTTP 接口 


通常 一 个 HDFS 集群 的 部 署 都 会 包含 一 个 配置 到 特定 端口 的 HTTP 服务 器 ,用 户 使 
用 HTTP 浏览 器 可 以 访问 这 一 服务 器 来 查询 HDFS 上 的 文件 。 
K 6-3 是 一 些 默认 端口 配置 信息 。 
表 6-3 HTTP 默认 端口 配置 信息 


功 能 HDFS-site. xml 中 的 配置 项 默 认 值 
NameNode HTTP 服务 器 端口 dfs. http. address 50070 
Datanode HTTP 服务 器 端口 dfs. datanode. http. address 50075 
4) Java API 


HDFS 为 依赖 它 作 为 数据 储存 平台 的 Java 程序 提供 对 HDFS 上 的 文件 和 文件 夹 进行 
管理 .创建 , 写 人 、 读 取 等 操作 的 应 用 程序 接口 。HDFS 提供 了 一 个 FileSystem 类 , 它 是 一 
个 高 层 抽象 的 文件 系统 类 ,使 用 FileSystem 的 实例 可 以 对 文件 和 文件 夹 进行 各 种 操作 。 
FileSystem 由 Configuration 实例 中 获取 配置 并 返回 配置 完成 的 FileSystem 类 。 


Configuration config = new Configuration(); 
FileSystem hdfs - FileSystem.get(config); 


下 面 举 出 一 些 常用 的 HDFS API 实例 : 
(1) 从 本 地 文件 系统 复制 文件 到 HDFS 上 


Path srcPath = new Path(srcFile); 
Path dstPath = new Path(dstFile); 
hdfs. copyFromLocalFile(srcPath, dstPath) ; 


其 中 srcFile 和 dstFile 变量 为 包含 完整 路 径 名 (路 径 十 文件 名 ) 的 字符 串 , 分 别 是 本 地 文件 
的 路 径 和 HDFS 上 的 目标 文件 的 路 径 。FileSystem 类 的 copyFromLocalFile 函数 由 本 地 文 
件 系 统 复制 文件 到 HDFS 上 。 

(2) HDFS 上 创建 文件 


Path path = new Path(fileName); 
FSDataOutputStream outputStream = hdfs.create(path); 
outputStream. write(buff, 0, buff. length); 


FileSystem 类 的 create 函数 创建 文件 ,并 返回 FSDataOutputStream 对 象 用 来 向 
HDFS 中 的 文件 写 入 字 节 数组 buff 中 的 内 容 。 
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(3) HDFS 上 重 命名 文件 


Path fromPath = new Path(fromFileName); 
Path toPath = new Path(toFileName); 
boolean isRenamed - hdfs.rename(fromPath, toPath); 


FileSystem 类 的 rename 函数 对 HDFS 上 的 文件 做 重 命名 操作 ,返回 一 个 表示 重 命名 
成 功 或 失败 的 布尔 型 。 
(4) HDFS 上 删除 文件 


Path path = new Path(fileName); 
boolean isDeleted = hdfs. delete(path, false); 


FileSystem 类 的 delete 函数 对 HDFS 上 的 文件 做 删除 操作 ,返回 一 个 表示 删除 成 功 或 
失败 的 布尔 型 。 如 果 文 件 路 径 的 目标 为 文件 夹 时 ,第 二 个 参数 表示 是 否 进行 递归 删除 , 若 为 
false 则 当 文 件 夹 不 为 空 时 删除 失败 。 

(5) 获取 HDFS 上 文件 或 文件 夹 的 属性 

Path path = new Path(fileName); 

boolean isExists = hdfs.exists(path); 


FileStatus fileStatus = hdfs.getFileStatus(path); 
long modificationTime = fileStatus. getModificationTime 


FileSystem 类 的 exists 方法 可 得 知 Path 是 否 存 在 。 它 的 getFileStatus 函数 返回 对 应 
路 径 的 文件 状态 类 FileStatus ,由 FileStatus 可 获取 文件 或 文件 夹 对 应 的 属性 ,如 创建 时 间 、 
文件 大 小 等 。 由 FileSystem 类 的 getFileBlockLocations 可 返回 路 径 对 应 文件 的 所 有 数据 
块 所 在 DataNode 等 信息 。 

6. HDFS 平台 的 搭建 

HDFS 的 部 署 模式 可 分 为 单机 模式 、 伪 分 布 模式 以 及 全 分 布 模式 。 其 中 单机 模式 和 伪 
分 布 模式 只 在 实验 或 编程 测试 时 使 用 ,生产 环境 只 用 全 分 布 模式 。 

单机 模式 和 伪 分 布 模式 只 需要 一 台 普通 的 电脑 就 可 以 完成 搭建 。 单 机 模式 直接 下 载 
Hadoop 的 二 进 制 tar. gz 包 解 压 配 置 Java 路 径 即 可 使 用 ,这 里 就 不 袭 述 了 。 下 面 对 于 伪 分 
布 模式 的 搭建 做 详细 描述 ,只 针对 Hadoop 1.2. 1 版 本 ,不 保证 后 续 版 本 可 以 正确 部 署 。 

1) 单机 伪 分 布 环境 搭建 

环境 要 求 : Linux 操作 系统 或 安装 了 Cygwin 的 Windows 环境 , Java 环境 (由 于 
Hadoopl. X 是 基于 JDK1. 6 开发 的 ,所 以 这 里 推荐 使 用 SunJDK1. 6, 而 不 推荐 使 用 
OpenJDK 3k 1. 7 版 本 的 JDK) 。 

第 一 步 : 下 载 Hadoop 压缩 包 并 解压 到 任意 目录 ,由 于 权限 问题 建议 解压 到 当前 用 户 的 主 
目录 (home) 。( 下 载 地 址 : http://mirror. bit. edu. cn/apache/ Hadoop/common/ stablel / ) 。 


hadoop@ ubuntu: - $ wget http://mirror. bit. edu. cn/apache/hadoop/common/stablel/hadoop - 1. 
2.1 — bi -- 2013 — 12 - 10 20:12:10 —- http://mirror. bit. edu. cn/apache/hadoop/common/ 
stablel/hadoop- 1.2.1 Resolving mirror. bit. edu. cn (mirror. bit. edu. cn)... 219. 143. 204. 117, 
2001:de8:204:2001:250:5 Connecting to mirror. bit. edu. cn (mirror. bit. edu. cn) |219. 143. 204. 
117| :80... connected. 
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HTTP request sent,awaiting response... 200 OK 
Length:38096663 (36M) [application/octer — stream] 
Saving to: 'hadoop- 1.2.1 - bin. tar. gz' 


第 二 步 : 修改 Hadoop 的 配置 文件 : conf/Hadoop-env. sh, conf/ HDFS-site. xml, conf/ 
core-site. xml。( 如 果 只 是 部 署 HDFS 环境 只 需要 修改 这 三 个 文件 ,如 需 配 置 MapReduce 
环境 请 参考 相关 文档 ) 

conf/ Hadoop-env. sh 中 修改 了 JAVA_HOME 的 值 为 JDK 所 在 路 径 。 

例如 : 


export JAVA HOME = /home/Hadoop/jdk 
conf/core-site. xml 修改 如 下 : 


< configuration > 
< property > 
< name > fs. default. name </name > 
< value > HDFS://localhost : 9000 </value > 
</property> 
</configuration > 


conf/ HDFS-site. xml 修改 如 下 (这 里 只 设置 了 副本 数 为 1): 


< configuration > 

< property > 
< name >dfs. replication </name > 
< value > 1 «/value > 

</property > 

</configuration > 


第 三 步 : 配置 ssh 自动 免 密码 登录 。 

运行 ssh-keygen 命令 并 一 路 回 车 使 用 默认 设置 ,产生 一 对 ssh 密 钥 。 

执行 ssh-copy-id -i ~/. ssh/id_rsa. pub localhost 把 刚刚 产生 的 公 钥 加 入 到 当前 主 
机 的 信任 密 钥 中 ,这 样 当前 使 用 的 用 户 就 可 以 使 用 ssh 无 密码 登录 到 当前 主机 。 

第 四 步 : 第 一 次 启动 HDFS 集群 时 需要 格式 化 HDFS, 在 master 主机 上 执行 Hadoop 
namenode -format 进行 格式 化 。 

如 果 格 式 化 成 功 后 , 则 在 Hadoop 所 在 的 目录 执行 bin/start-dfs. sh 开启 HDFS 服务 。 
查看 HFDS 是 否 正确 运行 可 以 执行 jps 命令 进行 查询 。 

hadoop@magter: ~/jdk/bin$ ./jps 


3160 Jps 


3076 SecondaryNameNode 
2895 DataNode 
2737 NameNode 
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至 此 HDFS 伪 分 布 环 境 搭建 完成 。 

2) 多 节点 全 分 布 搭建 

对 于 多 节点 搭建 而 言 , 本 实例 中 ,每 个 节点 都 需要 使 用 固定 IP 并 保持 相同 的 Hadoop 
配置 文件 ,每 个 节点 Hadoop 和 jdk 所 在 路 径 都 相同 、 存 在 相同 的 用 户 且 配置 好 免 密码 
登录 。 

第 一 步 : 与 单机 伪 分 布 模式 相同 ,下 载 Hadoop 的 二 进 制 包 , 并 解压 备用 。 

第 二 步 : 修改 Hadoop 配置 文件 ,与 伪 分 布 有 些许 不 同 。 

conf/Hadoop-env. sh 中 修改 变 了 JAVA. HOME 的 值 为 JDK 所 在 路 径 。 


export JAVA HOME = /home/hadoop/jck 


conf/core-site. xml 修改 如 下 : 


< configuration 
< property» 
< name> fs, default. name </name > 
<value > hdfs: //master:9000 </value > 
</property> 
«/configuration» 


conf/HDFS-site. xml 修改 如 下 : GHP d fs. name. dir Md fs. data. dir 可 以 任意 指定 ， 
注意 权限 问题 ) 


<configuration> 
«property» 

< name> dfs. name. dir </name > 

< value >/home/hadoop/name </value> 
</property> 
< property > 

<name> dfs. data. dir </name> 

< value >/home/hadoop/data </value> 
</property> 
</configuration> 


conf/masters 里 添加 secondary namenode 主机 名 ,例如 任意 slave 的 主机 名 。 

conf/slaves 里 添加 各 个 slave 的 主机 名 ,每 行 一 个 主机 名 。 

第 三 步 : 配置 hosts 文件 或 做 好 dns 解析 。 

为 了 简便 起 见 ,这 里 只 介绍 hosts 的 修改 ,dns 服务 器 的 搭建 与 配置 请 读者 选择 性 学 习 。 
在 /etc/hosts 里 面 添 加 所 有 主机 的 TP. 以 及 主机 名 。 每 个 节点 都 使 用 相同 的 hosts 文件 。 例 
如 ,设置 内 容 为 : 


192.168.1.100 master 
192.168.1.101 slavel 
192.168.1.102 slave2 


"i 
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第 四 步 : 配置 ssh 自动 登录 ,确保 master 主机 能 够 使 用 当前 用 户 免 密码 登录 到 各 个 
slave 主机 上 。 在 master 上 执行 ssh-keygen 命令 : 


hadoop@master: ~ $ ssh- keygen 

Generating public/private rsa key pair. 

Enter file in which to save the key (/home/hadoop/. ssh/id rsa): 
Created directory '/home/hadoop/. ssh'. 

Enter passphrase (empty for no passphrase) : 

Enter same passphrase again: 

Your identification has been saved in /home/hadoop/. ssh/id rsa. 
Your public key has been saved in /home/hadoop/. ssh/id_rsa. pub. 
The key fingerprint is: 

a8:8c:af :44:02:bc:a9:c7:1£:46:da:d7:cf:dc:45:ab hadoop@master 
The key's randomart image is: 


*-- [ RAS 2048 ] ---—* 
| | 
| | 
| 过 | 
le s | 
[or & «of 
PEE a abes TI 
| * * o | 
| oto xm f 
| o *E | 
4--------------- * 


使 用 以 下 命令 将 master 的 公 钥 添加 到 全 部 节点 的 信任 列表 上 。 


ssh- copy- id - i ~/.ssh/id_rsa. pub master 
ssh- copy- id - i ~/.ssh/id_rsa. pub slavel 
ssh- copy- id - i ~/.ssh/id_rsa. pub slave2 


hadoop@master:~ $ ssh- copy- id -i  —/.ssh/id rsa.pub master 

The authenticity of host 'master (127.0.0.1)'can't be established. 

ECDSA key fingerprint is 1e:b7:19:18:67:92:8a:80:b9:£2:03:77:25:a9 :e8:85. 
Are you sure you want to continue connecting (yes/no) ?yes 

Warning: Permanently added 'master' (ECDSA) to the list of known hosts. 
hadoop@ master's password: 

Now try logging into the machine, with "ssh 'master'",and check in: 


—/.ssh/authorized keys 


to make sure we haven't added extra keys that you weren't expecting. 


第 五 步 : 第 一 次 启动 HDFS 集群 时 需要 格式 化 HDFS. TE master 主机 上 执行 Hadoop 
namenode -format, 这 一 操作 和 伪 分 布 相同 。 

启动 HDFS 集群 ,在 master 主机 上 的 Hadoop 所 在 目录 运行 bin/start-dfs. sh 启动 整 
个 集群 。 运 行 jps 可 检查 各 个 节点 是 否 顺利 启动 。 
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hadoop@master: ~/jdk/bin$ ./jps 
3160 Jps 

3076 SecondaryNameNode 

2895 DataNode 

2737 NameNode 


6.2.2 HBase 


1. HBase 简介 

Apache HBase 是 运行 于 Hadoop 平台 上 的 数据 库 , 它 是 可 扩展 的 、 分 布 式 的 大 数据 储 
存 系统 。HBase 可 以 对 大 数据 进行 随机 而 实时 的 读 取 和 写 入 操作 。 它 的 目标 是 在 普通 的 
机 器 集群 中 处 理 巨 大 的 数据 表 , 数 据 表 的 行 数 和 列 数 都 可 以 达到 百 万 级 别 。 受 到 Google 
Bigtable 思想 启发 ,Apache 开发 出 HBase, HBase 是 一 个 开源 的 、 分 布 式 的 ,数据 多 版 本 储 
存 的 ,面向 列 的 大 数据 储存 平台 。Google 的 Bigtable 是 运行 于 GFS(Google File System) 
上 的 ,而 HBase 是 运行 于 Apache 开发 的 Hadoop 平 台 上 。 

2. HBase 的 特性 

HBase 的 特性 包括 : (1) 线 性 和 模块 化 的 扩展 性 ; (2) 严 格 的 读 写 一 致 性 ; (3) 自 动 且 可 
配置 的 数据 表 分 片 机 制 ; CD RegionServer 之 间 可 以 进行 热 备份 切换 ; (5) 为 MapReduce 操 
作 HBase 数据 表 提 供 方便 JAVA 基础 类 ; (6) 易 用 的 JAVA 客户 端 访问 APIS (7) 支 持 实 
时 查询 的 数据 块 缓存 和 模糊 过 滤 ; (8) 提 供 Trift 网 关 和 REST-ful Web 服务 ,并 支持 
XML Protobuf 和 二 进 制 编码 ; (9) 可 扩展 的 Jrubyshell; (10) 支 持 通过 Hadoop 检测 子 系 
统 或 JMX 导出 检测 数据 到 文件 .Ganglia 集群 检测 系统 。 

3. HBase 体系 架构 

如 图 6-3 所 示 ,HBase 集群 一 般 由 一 个 HMaster、 多 个 HRegionServer 组 成 。 整 个 集群 
由 ZooKeeper 作为 同步 的 协调 者 。 

1) Client 

使 用 HBase RPC 机 制 与 HMaster 和 HRegionServer 进行 通信 。 

(1) Client 与 HMaster 进行 通信 进行 管理 类 操作 。 

(2) Client 与 HRegionServer 进行 数据 读 写 类 操作 。 

2) Zookeeper 

Zookeeper 是 整个 集群 运行 中 的 同步 协调 者 , 它 主 要 有 以 下 几 个 作用 。 

(1) Zookeeper Quorum 存储 -ROOT- 表 地 址 `HMaster 地 址 。 

(2) HRegionServer 把 自己 注册 到 Zookeeper. HMaster 随时 感知 各 HRegionServer 的 
状况 。 

(3) Zookeeper 避免 HMaster 单 点 问题 。 

3) HMaster 

HMaster 没有 单 点 问题 ,HBase 中 可 以 启动 多 个 HMaster, 通 过 Zookeeper 保证 总 有 
一 个 Master 在 运行 。 
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图 6-3 HBase 基本 架构 


主要 负责 Table 和 Region 的 管理 工作 : 

(1) 管理 用 户 对 表 的 增删 改 查 操作 。 

(2) 管理 HRegionServer 的 负载 均衡 ,调整 Region 分 布 。 

(3) Region Split 后 ,负责 新 Region 的 分 布 。 

(4) 在 HRegionServer 停机 后 ,负责 失效 HRegionServer 上 Region 迁移 。 

4) HRegionServer 

HBase 中 最 核心 的 模块 ,主要 负责 响应 用 户 I/O 请 求 , 向 HDFS 文件 系统 中 读 写 数据 。 

HRegionServer 管理 一 些 列 HRegion 对 象 ; 

每 个 HRegion 对 应 Table 中 一 个 Region, HRegion 由 多 个 HStore 组 成 ; 

每 个 HStore 对 应 Table 中 一 个 Column Family 的 存储 ; 

Column Family 就 是 一 个 集中 的 存储 单元 , 故 将 具有 相同 IO 特性 的 Column 放 在 一 个 
Column Family 会 更 高 效 。 

5) HStore 

HBase 存储 的 核心 。 由 MemStore 和 StoreFile 组 成 。 

MemStore 是 Sorted Memory Buffer。 

6) BABS A HBase 的 过 程 

Client 写 人 数据 ,数据 先 存 人 MemStore, 一 直到 MemStore 满 , MenStore 中 的 内 容 写 
和 硬盘 形成 一 个 StoreFile, 直至 StoreFile 的 数量 增长 到 一 定 阔 值 ,由 HStore 触发 一 个 
StoreFile 合并 操作 ,将 多 个 StoreFile 合并 成 一 个 StoreFile, 同 时 趁 这 一 过 程 进 行 版 本 合并 
和 数据 删除 操作 。 当 单个 StoreFile 由 于 多 次 合并 操作 ,其 大 小 超过 一 定 阔 值 后 ,触发 分 割 
操作 ,把 当前 Region 分 割 成 2 个 Region ,这 时 旧 的 Region 会 下 线 ,2 个 新 的 Region 会 被 
HMaster 分 配 到 相应 的 HRegionServer 上 ,使 得 原先 1 个 Region 的 数据 分 流 到 2 个 
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Region 上 。 

由 此 过 程 可 知 ,HBase 正常 情况 下 只 能 增加 数据 ,而 更 新 和 删除 操作 只 能 在 平时 做 记 
录 然 后 在 合并 阶段 来 做 ,用 户 的 写 操作 只 与 在 内 存 中 的 Menstore 打交道 ,操作 完 即 返回 成 
功 , 从 而 保证 1/0 高 性 能 。 

7) HLog 

在 分 布 式 系统 环境 中 ,无 法 避免 系统 出 错 或 者 宕 机 导致 HRegionServer 进程 意外 退 
出 ,内 存 中 的 数据 就 会 丢失 ,因此 引入 了 HLog 的 机 制 。 

在 每 个 HRegionServer 中 都 会 有 一 个 HLog, HLog 是 一 种 写 记 录 后 写 入 的 机 制 ,每 次 
用 户 操作 写 人 Memstore 之 前 ,都 会 写 一 份 数 据 到 HLog 文件 ,HLog 文件 会 定期 刷新 ,除去 
旧 的 数据 即 已 经 写 入 StoreFile 中 的 那 部 分 数据 。 

当 HRegionServer 意外 终止 后 ,HMaster 会 通过 Zookeeper 感知 , HMaster 首先 处 理 
遗留 的 HLog 文件 ,将 不 同 region 的 log 数据 拆 分 ,分 别 放 到 相应 region 目录 下 ,然后 再 将 
失效 的 region 重新 分 配 ,领取 到 这 些 region 的 HRegionServer 在 Load Region 的 过 程 中 ， 
会 发 现 有 历史 HLog 需要 处 理 , 因 此 新 的 HRegionServer 会 根据 HLog 中 的 记录 ,将 相关 
StoreFile 调 到 MemStore 中 ,并 做 Hlog 记录 的 写 人 操作 ,然后 持久 化 写 和 人 到 StoreFiles , 完 
成 数据 恢复 的 过 程 。 

8) HBase 在 HDFS 上 的 存储 格式 一 一 HFile 和 HLogFile 

(1) HFile。 

HFile 文件 不 定 长 。 每 个 Data 块 的 大 小 可 以 在 创建 一 个 Table 的 时 候 通 过 参数 指定 ， 
大 的 Block 有 利于 顺序 Scan, 小 的 Block 利于 随机 查询 。 

HFile 中 存储 的 数据 是 由 一 个 个 Key-Value 对 拼接 而 成 ,。HFile 里 面 的 每 个 Key- 
Value 对 就 是 一 个 简单 的 byte 数组 。 其 中 Key 包含 了 前 面 提 到 过 的 行 键 、 列 族 、 修 饰 符 和 
时 间 戳 ,而 Value 只 是 简单 的 字 节 数组 ,用 于 通用 地 存储 所 有 类 型 的 数据 。 

(2) HLog File。 

HLog 文件 就 是 一 个 普通 的 HDFS 文件 ,其 中 记录 了 写 和 人 记录 的 归属 信息 ,除了 表 和 
region 的 ID 以 外 ,还 包括 记录 时 的 时 间 戳 。 以 便 在 故障 的 时 候 做 恢复 时 能 够 区 别 记录 的 操 
作对 象 ,让 HRegionServer 能 够 根据 这 些 信 息 使 HLog 按照 其 归属 的 不 同 对 Region 进行 
分 割 。 

4. HBase 数据 模型 

1) 概念 视图 

在 HBase 中 ,一 个 列 名 是 由 它 的 列 族 前 组 和 修饰 符 Cqualifier) 连 接 而 成 。 列 族 前 绷 是 
在 表 生 成 的 时 候 就 决定 的 ,在 表 创 建 完成 之 后 不 可 改变 。 后 绥 修 饰 符 是 可 以 在 表 创 建 后 随 
意 指定 的 。 一 个 列 族 下 允许 有 多 个 不 同 的 修饰 符 , 且 在 插入 数据 的 时 候 如 果 搬 入 的 修饰 符 
不 存在 则 会 自动 创建 新 的 修饰 符 。 一 个 列 的 表示 方法 : 列 族 : 修 饰 符 , 例 如 contents:page 
在 列 族 contents 后 面 添加 冒号 (:) 并 加 修饰 符 page 来 组 成 。 每 个 列 族 存 在 一 个 没有 修饰 符 
的 列 , 以 列 族 名 加 冒号 的 形式 ,例如 contents: 代 表 的 是 contents 下 一 个 匿名 的 列 。 

HBase 中 的 一 个 数据 项 是 由 四 个 参数 来 定位 的 , 即 键 (Row Key), I} [8] Bi (Time 
Stamp) 以 及 前 面 提 及 的 列 族 和 修饰 符 。 故 也 可 以 认为 HBase 是 一 张 松散 的 四 维 表 ,其 中 大 
部 分 的 数据 项 可 以 是 空 值 。 
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HBase 中 的 行 键 是 不 可 分 割 的 字 节 数 组 。 行 是 按 字典 排序 由 低 到 高 存储 在 表 中 的 。 
一 个 空 的 数组 是 用 来 标识 表 空 间 的 起 始 或 者 结尾 。 由 于 HBase 主要 用 于 处 理 Web 数据 ， 
故我 们 这 里 举 一 个 与 Web 有 关 的 例子 。WebsiteTable 的 表 , 包 含 两 个 列 族 : contents 和 
prior, 其 中 content 有 一 列 (contents:page) ,prior 有 两 列 urll ,url2, 表 6-4 所 示 o 


表 6-4 WebsiteTable 


Row Key Time Stamp ColumnFamily contents ColumnFamily refer 
www. baidu. com t9 urll — "www. tencent, com" 
www. alibaba. com 18 urll — www. sougou. com 
www. tencent. com t6 contents: page= "<html>..." 


www. tencent. com 


contents: page= "<html>..." 


url2— "www. qq. com" 


www. tencent. com 


contents; page— "<html>..." 


urll = www. sougou. com 


可 见 在 表 6-1 中 的 一 些 项 目 是 空 值 , 且 所 有 的 数据 都 可 以 由 行 键 .时 间 戳 、 列 族 、 修 饰 符 


来 定位 。 
2) 物理 视图 


在 概念 视图 里 , HBase 表 可 以 被 看 作 是 一 张 松 散 的 四 维 表 , 其 中 一 些 数据 可 以 为 空 。 
但 是 在 把 这 个 表 作 为 数据 储存 到 计算 机 中 时 ,这 些 空 值 的 位 置 实际 上 是 不 会 被 储存 的 。 当 
查询 到 这 些 不 存在 的 位 置 时 ,HBase 就 会 返回 一 个 空 值 。 在 查询 中 如 果 不 指 定时 间 戳 , 则 
HBase 自动 返回 最 近 的 一 个 结果 。 实 际 储存 使 HBase 是 分 列 族 来 储存 所 有 数据 的 ,一 个 修 
饰 符 可 以 不 经 过 创建 等 过 程 直接 跟随 数据 插入 到 列 的 储存 文件 中 ,如 表 6-5 和 表 6-6 所 示 。 
56-5 列 族 refer 的 储存 结构 


Row Key 


Time Stamp 


ColumnFamily refer 


www. baidu. com 


urll="www. tencent. com" 


www. alibaba. com 


urll = www. sougou. com 


‘www. tencent. com 


url2="www. qq. com" 


‘www. tencent. com 


urll= www. sougou. com 


6-6 Fl contents 的 储存 结构 


Row Key 


Time Stamp 


ColumnFamily contents 


‘www. tencent. com 


contents; page= "<html>..." 


‘www. tencent. com 


contents: page= "<html>..." 


www. tencent. com 


contents: page= "<html >..." 


5. HBase 支持 的 数据 操作 


四 个 主要 的 数据 模型 操作 是 Get, Put, Scan 和 Delete。 通 过 HTable 实例 进行 操作 。 


1) Get 


Get 返回 特定 行 的 属性 ,能 做 单个 数据 项 的 查询 ,并且 返 回 该 数据 项 中 的 字 节 串 。 


2) Put 


Put 实现 向 表 增加 新 行 (如 果 key 不 存在 ) 或 更 新 行 (如 果 key 已 经 存在 ) 。 一 次 可 以 更 


新 多 个 行 。 
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3) Scan 

Scan 能 够 对 多 行 的 特定 属性 进行 迭代 输出 , 且 能 够 对 输出 进行 过 滤 , 只 输出 特定 的 数 
据 项 。 

4) Delete 


Delete 只 能 够 在 表 中 删除 一 行 。HBase 没有 直接 修改 持续 化 的 数据 的 方法 。 所 以 通过 
对 数据 打下 删除 标志 之 后 再 在 StoreFile 合并 操作 中 统一 处 理 。 
6. HBase FH PEE 


1) Shell UI 
HBase Shell 为 用 户 提供 一 个 可 以 通过 Shell 控制 台 或 脚本 来 执行 HBase 的 所 有 操作 
的 接口 。 可 以 在 shell 控制 台 运行 一 下 命令 来 运行 HBase Shell: 


$ ./bin/HBase shell 


在 HBase Shell 中 输入 help 即 能 得 到 一 个 Shell 的 命令 列表 和 选项 。 可 以 看 看 在 Help 
文档 尾部 的 关于 如 何 输入 变量 和 选项 。 尤 其 要 注意 的 是 表 名 、 行 , 列 名 必须 要 加 引号 。 

Create 

create 命令 用 于 创建 表 。 在 创建 表 时 至 少 需要 给 一 个 表 名 和 一 个 列 族 名 ,当然 还 可 以 
添加 更 多 的 列 族 以 及 设 定 各 个 列 族 的 属性 。 下 面 我 们 给 出 几 个 Create 的 例子 。 


用 create 命令 创建 websitetable: 


hbase(main) :002:0 > create 'websitetable', 'contents', 'refer' 
0 row(s) in 1.8780 seconds 


其 中 第 一 项 为 表 名 ,第 二 和 第 三 项 分 别 为 第 一 和 第 二 个 列 族 名 。 
List 
list 命令 用 于 查看 当前 数据 库 所 有 表 名 。 


hbase(main):002:0» list 
TABLE 

websitetable 

1 row(s) in 0.0230 seconds 


Describe 
describe 命令 用 于 查看 指定 表 的 结构 。 


hbase(main) :001:0> describe "websitetable" 

DESCRIPTION ENABLED 'websitetable', {NAME = »'contents', DATA BLOCK ENCODING = true >'NONE', 
BLOOMFILTER = »'NONE',REPLICATION SCOPE = >'0', VERSIONS = >'3', COMPRESSION = »'NONE',MIN VERSIONS 
=>'0', TTL -»'2147483647', KEEP DELETED CELLS = »'false', BLOCKSIZE = >'65536', IN MEMORY = >'false 
',ENCODE ON DISK = >'true', BLOCKCACHE = >'true'}, (NAME = »'refer', DATA BLOCK ENCODING = >'NONE', 
BLOOMFILTER = »'NONE',REPLICATION SCOPE = >'0', VERSIONS = >'3', COMPRESSION = »'NONE',MIN VERSIONS 
=>'0', TTL =>'2147483647', KEEP DELETED CELLS = »'false', BLOCKSIZE = >'65536', IN MEMORY = >'false 
', ENCODE_ON_DISK = » 'true', BLOCKCACHE = >'true'} 

1 row(s) in 0.7980 seconds 
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Put 
put 命令 用 于 把 数据 插入 到 表 中 。 插 入 的 数据 项 所 在 的 列 可 以 是 不 存在 的 , HBase 会 
自动 生成 这 一 列 , 但 是 列 所 在 的 列 族 必须 是 在 创建 表 的 时 候 就 存在 的 。 


hbase(main) :003:0> put 'websitetable', 'www. tencent. com’, 'contents:page', '< html >..." 
0 row(s) in 0.0740 seconds 


其 中 第 一 个 参数 为 表 名 ,第 二 个 参数 为 行 键 ,第 三 个 参数 为 列 族 : 列 名 ,第 四 个 参数 为 数据 。 
Get 
get 命令 用 于 返回 单行 的 内 容 , 至 少 需 要 指定 行 键 ,当然 也 可 以 指定 列 族 、 列 名 和 时 间 
戳 。 如 果 不 指 定时 间 戳 , 则 返回 的 是 最 新 的 一 个 结果 。 


hbase(main) :005:0> get 'websitetable', "www. tencent. com", "contents: page" 
COLUMN CELL 

contents : page timestamp = 1386726040441, value =< html >... 
1 row(s) in 0.0250 seconds 


其 中 第 一 个 参数 为 表 名 ,第 二 个 参数 为 行 键 ,第 三 个 参数 为 列 族 : 列 名 ,最 后 可 以 追加 一 个 
DEDE M 

Scan 

scan 命令 用 于 扫描 一 个 表 并 返回 符合 特定 要 求 的 多 个 数据 项 。 扫 描 的 条 件 可 以 是 以 
下 几 种 : LIMIT( 限 制 返回 的 条 目 数 ) .STARTROW (指定 开始 行 )\STOPROW( 指 定 结束 
47) .TIMESTAMP G2 It BUD .COLUMNS( 指 定 列 ,可 为 多 个 列 ) 。 


hbase(main) :007:0> scan "websitetable" 
ROW COLUMN + CELL 

www. tencent. com column = contents:page, timestamp = 1386726040441, value = < html >... 
1 row(s) in 0.0270 seconds 


hbase(main):012:0» scan 'websitetable', (COLUMNS = »[ 'contents:page', ‘contents: refer'], LIMIT = 
210) 
ROW COLUMN + CELL 
www. tencent. com column = contents: page, timestamp = 1386726040441, value =< html»... 
1 row(s) in 0.0160 seconds 


以 上 两 个 实例 中 ,第 一 个 参数 是 表 名 ,第 二 个 参数 是 扫描 需要 满足 的 条 件 。 

Delete 

delete 命令 用 于 删除 单行 的 数据 。delete 可 以 删除 整 行 数据 ,也 可 以 删除 指定 列 族 、 列 
名 和 时 间 戳 的 数据 项 。 语 法 与 get 命令 相同 。 


hbase(main) :014:0 > delete 'websitetable', 'www. tencent.com', 'contents:page" 
0 row(s) in 0.0110 seconds 
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hbase(main) :015:0> scan 'websitetable’ 


ROW 


COLUMN + CELL. 


1 row(s) in 0.0230 seconds 


2) Java API 

HBase 通过 Client 端的 程序 向 用 户 提供 了 一 套 完整 的 API, 用 户 可 以 利用 API 完成 全 
部 的 HBase 操作 ,API 可 以 更 简便 地 完成 比 Shell 更 复杂 的 操作 。 

HBase 的 API 定 义 了 许多 用 于 数据 库 管理 .数据 操作 的 类 和 方法 ,下 面 列 出 几 个 常用 


Configuration 


在 使 月 


H Java API 时 ,Client 端 需要 知道 HBase 的 配置 环境 ,如 存储 地 址 、zookeeper 等 


信息 。 这 些 信息 通过 Configuration 对 象 来 封装 ,可 通过 如 下 代码 构建 该 对 象 ; 


Configuration config = HBaseConfiguration.create(); 


在 调用 HBaseConfiguration. create ( ) 方法 时 , HBase 首先 会 在 classpath 下 查找 
HBase-site. xml 文件 ,将 里 面 的 信息 解析 出 来 封装 到 Configuration 对 象 中 ,如 果 HBase- 
site. xml 文件 不 存在 , 则 使 用 默认 的 HBase-core. xml 文件 。 

除了 将 HBase-site. xml 放 到 classpath 下 ,开发 人 员 还 可 通过 config. set(name, value) 
方法 来 手工 构建 Configuration 对 象 。 


Configuration. set(String name，String value) 


例如 : 


Configuration. set("HBase. master", "localhost:60000") 


HBaseAdmin 
HBaseAdmin 用 于 创建 数据 库 表 格 ,并 管理 表格 的 元 数据 信息 ,通过 如 下 方法 构建 ， 


HBaseAdmin admin = new HBaseAdmin(config) ; 


常用 方法 : 


addColumn(tableName, column) : 为 表格 添加 栏 位 
deleteColumn(tableName,column) : 删除 指定 栏 位 
balanceSwitch(boolean): 是 否 启用 负载 均衡 
createTable(HTableDescriptor desc): 创建 表格 
deleteTable(tableName): 删除 表格 
tableExists(tableName): 判断 表格 是 否 存在 


示例 : 


创建 test 表格 ,并 为 其 指定 columnFamily 为 cf。 


HBaseAdmin admin = new HBaseAdmin(config); 
If(!admin. tableExists("test")){ 
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HTableDescriptor tableDesc = new HTableDescriptor("test"); 
HColumnDescriptor cf - new HColumnDescriptor("cf"); 
tableDesc. addFamily(cf); 

admin. createTable(tableDesc); 


HTable 
在 HBase 中 ,HTable 封装 表格 对 象 ,对 表格 的 增删 改 查 操作 主要 通过 它 来 完成 ,构造 
方法 如 下 : 


HTable table = new HTable(config, tableName); 


在 构建 多 个 HTable Xf £ Itf. HBase 推荐 所 有 的 H Table 使 用 同一 个 Configuration, 
这 样 ,HTable 之 间 便 可 共享 HConnection Xf $$, zookeeper 信息 以 及 Region 地 址 的 缓存 
示例 : Get 操作 。 


Get get = new Get(rowKey); 
Result res = table.get(get); 


示例 : Put 操作 。 
Put put = new Put(rowKey); 


put. add(columnFamily, column, value); 
table. put(put); 


在 HBase 中 ,实体 的 新 增 和 更 新 都 是 通过 Put 操作 来 实现 。 
示例 : Delete 操作 。 


Delete delete = new Delete(); 
table. delete(delete) ; 


示例 : Scan 操作 。 


Scan scan = new Scan(); 


scan. addColumn(columnFamily, column); // 指 定 查询 要 返回 的 column 
SingleColumnValueFilter filter = new SingleColumnValueFilter( 
columnFamily, column, // 指 定 要 过 滤 的 column 
ConpareOp. EQUAL, value // 指 定 过 滤 条 件 
» 
// 更 多 的 过 滤器 信息 请 查看 org. apache. Hadoop. HBase. filter 包 
scan. setFilter(filter); // 为 查询 指定 过 滤器 
ResultScanner scanner = table.getScanner(scan); ”// 执 行 扫描 查找 
Iterator «Result > res = scanner. iterator(); // 返 回 查 询 遍 历 器 


下 面 给 出 一 个 比较 完整 的 实例 : 
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package net. linuxidc. www; 

import org.apache. Hadoop. conf. Configuration; 
import org.apache. Hadoop. HBase. HBaseConf iguration; 
import org. apache. Hadoop. HBase. HColumnDescriptor; 
import org. apache. Hadoop. HBase. HTableDescriptor; 
import org. apache. Hadoop. HBase. KeyValue; 

import org. apache. Hadoop. HBase. client. HBaseAdmin; 
import org. apache. Hadoop. HBase. client. HTable; 
import org. apache. Hadoop. HBase. client. Result; 
import org. apache. Hadoop. HBase. client. ResultScanner; 
import org. apache. Hadoop. HBase. client. Scan; 

import org. apache. Hadoop. HBase. io. BatchUpdate; 


public class HBaseDBDao { 


// 定 义 配 置 对 象 HBaseConfiguration 
static HBaseConfiguration cfg = null; 
static { 


Configuration configuration = new Configuration(); 
cfg = new HBaseConfiguration(configuration); 
} 
// 创 建 一 张 表 ,指定 表 名 、 列 族 
public static void createTable(String tableName, String columnFarily)throws Exception{ 
HBaseAdmin admin = new HBaseAdmin(cfg); 
if(admin. tableExists(tableName))( 
System. out. println(tableName + "不 存在 !"); 
Systen. exit(0); 
Jeise( 
HTableDescriptor tableDesc - new HTableDescriptor(tableName); 
tableDesc. addFamily(new HColumnDescriptor(columnFarily + ":")); 
System. out. println(" 创 建 表 成 功 !") ; 


} 
// 添 加 数据 ,通过 Hable 和 BatchUpdate 为 已 经 存在 的 表 添 加 数据 data 
public static void addData(String tableName, String row, String columnFamily, String 
column, String data) throws Exception{ 
HTable table = new HTable(cfg, tableName) ; 
BatchUpdate update = new BatchUpdate(row) ; 
update. put(columnFamily + ":" + column, data. getBytes()); 
table.commit(update); 
System. out. println(" 添 加 成 功 !"); 
} 
// 显 示 所 有 数据 ,通过 HTable Scan 类 获取 已 有 表 的 信息 
public static void getAllData(String tableName)throws Exception{ 
HTable table - new HTable(cfg, tableName); 
Scan scan = new Scan(); 
ResultScanner rs - table.getScanner(scan); 
for(Result r:rs)( 
for(KeyValue kv:r.raw())( 
System. out. println(new String(kv. getColumn()) + new 
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String(kv.getValue())); 


) 
} 
! 
public static void main(String[] args) { // 测 试 函数 
try{ 
String tableName = "student"; 
HBaseDBDao. createTable(tableName, "c1"); 
HBaseDBDao. addData(tableName, "rowl", "cl", "1", "this is row 1 column c1:c1"); 
HBaseDBDao. getAllData(tableName); 
Jcatch(Exception e) { 
e. printStackTrace( ) ; 
I 
ji 


7. HBase 环境 搭建 

HBase 的 部 署 模式 与 HDFS 类 似 。 同 样 可 分 为 单机 模式 、 伪 分 布 模式 以 及 全 分 布 模 
式 。 其 中 单机 模式 和 伪 分 布 模式 只 在 实验 或 编程 测试 时 使 用 ,生产 环境 只 用 全 分 布 模式 。 

单机 模式 和 伪 分 布 模式 只 需要 一 台 普通 的 电脑 就 可 以 完成 搭建 。 单 机 模式 直接 下 载 
HBase 的 二 进 制 tar. gz 包 解 奈 配 置 Java 路 径 即 可 使 用 ,这 里 就 不 袭 述 了 。 下 面 对 于 伪 分 布 
模式 的 搭建 做 详细 描述 ,只 针对 笔者 着 笔 时 的 HBase 0. 94. 14 版 本 ,不 保证 后 续 版 本 可 以 
正确 部 署 。 

1) 单机 伪 分 布 模式 

环境 要 求 : Linux 操作 系统 或 安装 了 Cygwin 的 Windows 环境 , Java 环境 (由 于 
Hadoopl. X 是 基于 JDK1. 6 开发 的 ,所 以 这 里 推荐 使 用 SunJDK1. 6, 而 不 推荐 使 用 
OpenJDK 或 1. 7 版 本 的 JDK)。 配 置 好 HDFS 伪 分 布 环境 ,这 里 使 用 Hadoop 1. 2. 1 作为 
HBase 的 HDFS 环境 。 

第 一 步 : FE HBase 压缩 包 并 解压 到 任意 目录 ,由 于 权限 问题 建议 解压 到 当前 用 户 的 
主 目录 (home)。( 下 载 地 址 : http://mirror. bit. edu. cn/apache/ HBase/stable/)。 


hadoop @ ubuntu: ~ $ wget http://mirror. bit. edu. cn/apache/hbase/stable/hbase - 0. 94. 14. 
tar. gz 

-- 2013- 12- 11 10:36:24—- http://mirror. bit. edu. cn/apache/hbase/stable/hbase — 0. 94. 14. tar. gz 
Resolving mirror. bit. edu. cn (mirror. bit. edu.cn)... 219. 143. 204. 117, 2001:da8:204:2001:250:5 
Connecting to mirror. bit. edu. cn (mirror. bit. edu. cn) |219. 143. 204. 117 | :80... connected. 

HTTP request sent, awaiting response... 302 Found 

Location: http://202. 116. 36. 222/files/600600000068E329/mirrors. hust. edu. cn/apache/hbase/sta 
—-2013-12-11 10:36:25 — http://202.116.36. 222/files/600600000068E329/mirrors. hust. edu. cn/a 
Connecting to 202. 116. 36. 222:80... connected. 

HTTP request sent,awaiting response... 200 OK 

Lenggth: 58436526 (56M) [application/octet - stream] 

Saving to: 'hbase — 0.94.14. tar.gz.1' 


[pes |) == SSS SSS Sees sss Sse Saas ] 44,389,212 3.48M/s eta5s 
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hadoop@ubuntu: ~ $ tar- zxf hbase 一 0.94.14.tar. gz 
hadoop@ubuntu: ~ $ 1s 


data hbase jdk name 
hadoop- 1.2.1 hbase- 0.94.14 jdk1.6.0 45 
hadoop- 1.2.1 - bin. tar.gz hbase- 0.94.14. tar.gz jdk- 6u45 - linux - x64. bin 


第 二 步 : 修改 HBase 的 配置 文件 : conf/ HBase-env. sh,conf/HBase-site. xml. 
conf/ HBase-env. sh 中 修改 了 以 下 属性 ,下 面 是 一 个 示例 ,请 根据 实际 情况 配置 。 


export JAVA HOME = /home/Hadoop/ jdk 
export HBASE CLASSPATH = /home/Hadoop/Hadoop/conf ”// 指 向 Hadoop 的 conf 文件 夹 
export HBASE MANAGES ZK = true // 让 HBase 使 用 自 带 Zookeeper, 只 在 伪 分 布下 使 用 


配置 文件 conf/ HBase-site. xml 修改 如 下 : 


< configuration > 
< property > 
< name > fs. default. name </name > 
< value » HDFS: //1ocalhost:9000 </value > 
«/property » 
< property > 
< name > HBase. cluster. distributed </name > 
< value > true </value > 
</property> 
</configuration > 


第 三 步 : 替换 HBase 中 的 Hadoop 相关 jar 包 。 
将 Hadoop 根 目 录 下 的 Hadoop-core-1. 2. 1.jar 文件 复制 到 HBase 的 lib 目录 ,并 删除 


lib 目录 下 的 Hadoop-core-1. x. x. jar 文件 。 


第 四 步 : 先 启动 Hadoop( 前 文 介绍 了 启动 方法 ) ,再 执行 脚本 bin/start-HBase. sh 启动 


HBase。 


启动 后 可 运行 jps 得 到 如 下 进程 列表 : 


2564 SecondaryNameNode 
2391 DataNode 

2808 TaskTracker 

2645 JobTracker 

4581 Jps 

2198 NameNode 


2) 多 节点 全 分 布 搭建 
对 于 多 节点 搭建 而 言 , 不 能 使 用 HBase 自 带 的 Zookeeper, 而 必须 由 搭建 者 自行 搭建 


Zookeeper 集群 。 本 实例 中 ,使 用 前 文 已 经 架设 好 的 HDFS 全 分 布 集群 为 基础 进行 架设 ,这 
里 假设 用 户 已 经 自己 部 署 好 ZooKeeper 集群 ,ZooKeeper 集群 部 署 十 分 简易 ,请 读者 自行 查 


第 一 步 : 与 单机 伪 分 布 模式 相同 ,下 载 Hadoop 的 二 进 制 包 ,并 解压 备用 。 
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第 二 步 : 修改 Hadoop 配置 文件 ,与 伪 分 布 有 些 不 同 。 
修改 conf/ HBase-env. sh 中 的 以 下 几 项 : 
export JAVA_HOME = /home/Hadoop/jdk 
export HBASE CLASSPATH = /home/Hadoop/Hadoop/conf // 指 向 Hadoop 的 conf 文件 夹 
export HBASE MANAGES ZK = false // 让 HBase 使 用 已 经 架设 好 的 Zookeeper 环境 


conf/HBase-site. xml 修改 如 下 : 


<configuration> 

«property» 

< nane > HBase. rootdir </name > # 设 置 HBase 数据 库存 放 数据 的 目录 
< value > HDFS://master:9000/HBase </value > 

</property> 

<property> 

< name> HBase. cluster. distributed </name> # 1TJf HBase 分 布 模式 

< value» true </value > 

</property> 

< property > 

< nane » HBase. master </name > #495 HBase 集群 主 控 节 点 
< value» master: 60000 </value> 

</property> 

< property» 

< name > HBase. zookeeper. quorum </name > 

< value» master, slavel, slave2 </value> #48 zookeeper 集群 节点 名 
</property> 

</configuration> 


第 三 步 : 启动 Hadoop 和 Zookeeper 集群 ,使 用 bin/start-HBase. sh 启动 HBase, JA ay 


后 可 由 jps 命令 查看 到 正在 运行 的 java 进程。 至 此 HBase 全 分 布 集群 搭建 成 功 。 


4575 HQuorumPeer 

4114 SecondaryNameNode 
4196 JobTracker 

3947 NameNode 

4234 DataNode 

4637 HMaster 

4790 HRegionServer 
4893 Jps 


6.2.3 Cassandra 


1. Cassandra 简介 
Cassandra 是 社交 网 络 理想 的 数据 库 , 适 合 于 实时 事务 处 理 和 提供 交互 型 数据 。 以 


Amazon 的 完全 分 布 式 的 Dynamo 为 基础 ,结合 了 Google BigTable 基于 列 族 (Column 
Family) 的 数据 模型 ,P2P 去 中 心 化 的 存储 ,目前 twitter 和 digg 中 都 有 使 用 。 在 CAP 特性 
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上 (CAP 即 Consistnecy 一 致 性 , Avaliability 可 用 性 , Partition-tolerance 分 区 容忍 性 )， 
HBase 选择 了 CP,Cassandra 更 倾向 于 AP, 而 在 一 致 性 上 有 所 减弱 。 

Cassandra 的 类 Dynamo 特性 有 以 下 几 点 : 

CD 对 称 的 ,P2P 架构 

(2) 无 特殊 节点 ,无 单 点 故障 

(3) 基于 Gossip 的 分 布 式 管理 

(4) 通过 分 布 式 hash 表 放 置 数据 

(5) 可 插 拔 的 分 区 

(6) 可 插 拔 的 拓扑 发 现 

(7) 可 配置 的 放置 策略 

(8) 可 配置 的 最 终 一 致 性 

类 BigTable 特性 : 

(1) 列 族 数据 模型 

(2) 可 配置 ,2 级 maps, Super Colum Family 

(3) SSTable 磁盘 存储 

(4) Append-only commit log 

(5) Mentable (buffer and sort) 

(6) 不 可 修改 的 SSTable 文件 

(7) 集成 Hadoop 

2. Cassandra 数据 模型 

Cassandra 采取 与 HBase 相似 的 数据 模型 , 它 有 HBase 的 列 (Column) 和 列 族 (Column 
Family) 的 机 制 ,同时 又 有 自己 的 超级 列 (SuperColumn) 和 超级 列 族 (SuperColumn 
Family) 。 

关于 列 (Column) 

列 是 数据 增 量 最 底层 (也 就 是 最 小 ) 的 部 分 。 它 是 一 个 包含 名 称 (name)、 值 (value) 和 时 
间 截 (timestamp) 的 三 重 元 组 。 

下 面 是 一 个 用 JSON 格式 表示 的 column: 


{ // 这 是 一 个 Column 

name: "emailAddress", 
value: "arin(8)example. com", 
timestamp: 123456789 

} 


其 中 的 name 类 似 于 HBase 的 Row ID。 需 要 注意 的 是 ,其 中 name 和 value 都 是 字 节 数组 ， 
并 且 其 长 度 任意 。 

关于 超级 列 (SuperColumn) 

超级 列 与 列 的 区 别 就 是 ,标准 列 的 value 是 一 个 字 节 数组 ,而 超级 列 的 value 包含 多 个 
列 ,上 且 超 级 列 没有 时 间 惟 ,超级 列 中 的 各 个 列 的 时 间 戳 可 以 是 不 同 的 。 
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{ // 这 是 一 个 SuperColumn 

name: "homeAddress", 

// 无 限 数量 的 Column 

value: ( 
street: (name: "street", value: "1234 x street", timestamp: 123456789], 
city: (name: "city", value: "san francisco", timestamp: 123456789}, 
zip: (name: "zip", value: "94107", timestamp: 123456789], 
} 

} 


关于 列 族 (Column Family): Cassandra 的 列 族 概念 和 存储 方式 与 HBase KW, EAE 
一 些 列 的 集合 ,是 一 种 面向 行 存储 的 结构 类 型 ,每 个 列 族 物理 上 被 存放 在 单独 的 文件 中 。 从 
概念 上 看 , 列 族 像 关 系数 据 库 中 的 Table。 

关于 超级 列 族 (SuperColum Family) : 超级 列 族 概念 上 和 普通 列 族 相似 ,只 不 过 它 是 超 
级 列 的 集合 。 

关于 列 排序 : 不 同 于 数据 库 可 以 通过 Order by 定义 排序 规则 ,Cassandra 取出 的 数据 
顺序 总 是 一 定 的 ,数据 保存 时 已 经 按照 定义 的 规则 存放 ,所 以 取出 来 的 顺序 已 经 确定 了 。 另 
外 ,Cassandra 按照 列 的 name 属性 而 不 是 列 中 的 数据 value 属性 来 进行 排序 。 

Cassandra 可 以 通过 列 族 的 CompareWith 属性 配置 数据 value 属性 的 排序 ,在 
SuperColum 中 , 则 是 通过 超级 列 族 的 CompareSubcolumnsWith 属性 配置 列 的 排序 。 
Cassandra 提供 了 以 下 一 些 选项 : BytesType ,UTF8Type ,LexicalUUIDType ,TimeUUIDType ， 
AsciiType, Column name 识别 成 为 不 同 的 类 型 ,以 此 来 达到 灵活 排序 的 目的 。 

3. 分 区 策略 

在 Cassandra 中 , Token 是 用 来 分 区 数据 的 关键 。 每 个 节点 都 有 一 个 独一无二 的 
Token, 表 明 该 节点 分 配 的 数据 范围 。 节 点 的 Token 形成 一 
个 Token 环 , 如 图 6-4 所 示 。 例 如 ,使 用 一 致 性 Hash 进行 
分 区 时 , 键 值 对 将 根据 一 致 性 Hash 值 来 判断 数据 应 当 属于 
哪个 Token。 

分 区 策略 不 同 ,Token 的 类 型 和 设置 原则 也 有 所 不 同 。 
Cassandra 本 身 支持 三 种 分 区 策略 : 

(1) RandomPartitioner: 随机 分 区 是 一 种 hash 分 区 策 
M ,使 用 的 Token 是 大 整数 型 (BigInteger) ,范围 为 0 一 222 ， 
Cassandra 采用 了 MD5 作为 hash 函数 ,其 结果 是 128 位 的 
整数 值 ( 其 中 一 位 是 符号 位 ,Token 取 绝对 值 为 结果 )。 因 此 
极端 情况 下 ,一 个 采用 随机 分 区 策略 的 Cassandra 集群 的 节 
点 可 以 达到 27 十 1 个 节点 。 采 用 随机 分 区 策略 的 集群 无 法 
支持 针对 Key 的 范围 查询 。 

(2) OrderPreservingPartitioner: 如 果 要 支持 针对 Key 的 范围 查询 ,那么 可 以 选择 这 种 
有 序 分 区 策略 。 该 策略 采用 的 是 字符 串 类 型 的 Token。 每 个 节点 的 具体 选择 需要 根据 Key 
的 情况 来 确定 。 如 果 没 有 指定 InitialToken, 则 系统 会 使 用 一 个 长 度 为 16 的 随机 字符 串 作 


图 6-4 Token 环 
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为 Token, 字 符 串 包含 大 小 写字 符 和 数字 。 

(3) CollatingOrderPreservingPartitioner: 和 OrderPreservingPartitioner 一 样 ,是 有 序 
分 区 策略 。 只 是 排序 的 方式 不 一 样 ,采用 的 是 字 节 型 Token ,支持 设置 不 同 语言 环境 的 排序 
方式 ,代码 中 默认 是 en_US。 

分 区 策略 和 每 个 节点 的 Token Initial Token) 都 可 以 在 storage-conf. xml 配置 文件 中 
设置 。 

4. 副本 存储 

Cassandra 不 像 HBase 是 基于 HDFS 的 分 布 式 存储 , 它 的 数据 是 存在 每 个 节点 的 本 地 
文件 系统 中 。Cassandra 有 三 种 副本 配置 策略 : 

(1) SimpleStrategy(RackUnawareStrategy) : 副本 不 考虑 机 架 的 因素 ,按照 Token 放 
置 在 连续 下 几 个 节点 。 如 图 6-4 Bron ,假如 副本 数 为 3, 属 于 A 节点 的 数据 在 B.C 两 个 节点 
中 也 放置 副本 。 

(2) OldNetworkTopologyStrategy(RackAwareStrategy) :考虑 机 架 的 因素 ,除了 基本 
的 数据 外 , 先 找 一 个 处 于 不 同 数据 中 心 的 点 放置 一 个 副本 ,其 余 N 一 2 个 副本 放置 在 同一 数 
据 中 心 的 不 同 机 架 中 。 

(3) NetworkTopologyStrategy(DatacenterShardStrategy): 将 M 个 副本 放置 到 其 他 
的 数据 中 心 ,将 N 一 M 一 1 的 副本 放置 在 同一 数据 中 心 的 不 同 机 架 中 。 

5. 存储 机 制 

Cassandra 的 存储 机 制 借鉴 了 BigTable 的 设计 ,采用 MemTable 和 SSTable 的 方式 。 

CommitLog: 和 HBase 的 HLog — F$ , Cassandra 在 写 数 据 之 前 ,也 需要 先 记 录 日 志 ， 
称 之 为 Commit Log, 然 后 数据 才 会 写 人 到 Column Family 对 应 的 MemTable rp. H. 
MemTable 中 的 数据 是 按照 key 排序 好 的 。SSTable 一 旦 完成 写 入 ,就 不 可 变更 ,只 能 读 
取 。 下 一 次 Memtable 需要 刷新 到 一 个 新 的 SSTable 文件 中 。 所 以 对 于 Cassandra 来 说 ,可 
以 认为 只 有 顺序 写 ,没有 随机 写 操作 。 

MenTable: MemTable 是 一 种 内 存 结构 , 它 类 似 于 HBase 中 的 MenStore, 当 数据 量 达 
到 块 大 小 时 ,将 批量 flush 到 磁盘 上 ,存储 为 SSTable。 这 种 机 制 ,相当 于 缓存 写 回 机 制 
(Write-back Cache) ,优势 在 于 将 随机 IO 写 变 成 顺序 IO 写 ,降低 大 量 的 写 操作 对 于 存储 系 
统 的 压力 。 所 以 我 们 可 以 认为 Cassandra 中 只 有 顺序 写 操作 ,没有 随机 写 操作 。 

SSTable: SSTable 是 只 读 的 , 且 一 般 情况 下 ,一 个 列 族 会 对 应 多 个 SSTable, 当 用 户 检 
索 数 据 时 ,Cassandra 使 用 了 Bloom Filter, 即 通过 多 个 hash 函数 将 key 映射 到 一 个 位 图 中 ， 
来 快速 判断 这 个 key 属于 哪个 SSTable。 

为 了 减少 大 量 SSTable 带 来 的 开销 ,Cassandra 会 定期 进行 compaction, 简 单 地 说 ， 
compaction 就 是 将 同一 个 列 族 的 多 个 SSTable 合并 成 一 个 SSTable。 在 Cassandra 中 ， 
compaction 主要 完成 的 任务 是 : 

(1) 垃圾 回收 : cassandra 并 不 直接 删除 数据 ,因此 磁盘 空间 会 消耗 得 越 来 越 多 ， 
compaction 会 把 标记 为 删除 的 数据 真正 删除 ; 

(2) 合并 SSTable: compaction 将 多 个 SSTable 合并 为 一 个 (合并 的 文件 包括 索引 文 
TF ls XC fF bloom filter XPF) ,以 提高 读 操作 的 效率 ; 
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(3) 生成 MerkleTree: 在 合并 的 过 程 中 会 生成 关于 这 个 列 族 中 数据 的 MerkleTree, 用 
于 与 其 他 存储 节点 对 比 以 及 修复 数据 。 

6. 一 致 性 保证 

在 一 致 性 上 ,Cassandra 采用 了 最 终 一 致 性 ,可 以 根据 具体 情况 来 选择 一 个 最 佳 的 折 
中 ,来 满足 特定 操作 的 需求 。Cassandra 可 以 让 用 户 指定 读 /插入 /删除 操作 的 一 致 性 级 别 ， 
如 表 6-7 所 示 Cassandra 一 致 性 级 别 有 多 种 。 


表 6-7 Cassandra 一 致 性 级 别 


s m 
Level 描 述 Level 
ZERO | X SHE 
a 即便 是 有 一 个 提示 被 记录 下 
LECT 来 , 写 操作 也 被 认为 是 成 功 的 
至 少 一 个 副本 , 写 操作 即 为 即使 是 从 commit log 中 读 取 到 
ONE "m ONE 数据 ,也 认为 是 读 取 成 功 
至 少 有 一 半 必 上 的 副本 真正 至 少 有 一 半 以 上 的 副本 读 取 成 
"m QUORUM | 地 写 入 数据, 写 操作 才 算 成 功 | QUORUM | 功 , 才 算是 读 操作 成 功 
所 有 剧本 写 信 成功, 写 操作 才 | 所 有 副本 都 需要 正确 读 取 , 读 
算 成 功 操作 才 算 成 功 


注 : 一 致 性 级 别 是 由 副本 数 决定 ,而 不 是 集群 的 节点 数目 决定 。 


关于 Quorum NRW 协议 

N: 复制 的 节点 数量 , 即 副本 数 。 

R: 成 功 读 操 作 的 最 小 节点 数 。 

W: 成 功 写 操作 的 最 小 节点 数 。 

Quorum 协议 中 ,R 代表 一 次 成 功 的 读 取 操作 中 最 小 参与 节点 数量 ,W 代表 一 次 成 功 的 
写 操作 中 最 小 参与 节点 数量 。R 十 W>N, 则 会 产生 类 似 quorum 的 效果 。 该 模型 中 的 读 
( 写 ) 延 迟 由 最 慢 的 R(W) 复 制 决定 ,为 得 到 比较 小 的 延迟 ,R 和 W 的 和 有 的 时 候 比 N 小 。 

Quorum 协议 中 ,只 需 W--RN ,就 可 以 保证 强 一 致 性 。 因 为 读 取 数 据 的 节点 和 被 同 
步 写 入 的 节点 是 有 重生 的 。 在 一 个 RDBMS 的 复制 模型 中 (Master/salve) ,假如 N=2, 那 
4 W=2,R=1 此 时 是 一 种 强 一 致 性 ,但 是 这 样 造成 的 问题 就 是 可 用 性 的 减低 ,因为 要 想 写 
操作 成 功 ,必须 要 等 2 个 节点 的 写 操作 都 完成 以 后 才 可 以 。 

在 分 布 式 系 统 中 ,一 般 都 要 有 容错 性 ,因此 N 一 般 大 于 3, 此 时 根据 CAP 理论 ,我们 就 
需要 在 一 致 性 和 分 区 容错 性 之 间 做 一 平衡 ,如 果 要 高 的 一 致 性 ,那么 就 配置 N= W.R=1, 
这 个 时 候 可 用 性 就 会 大 大 降低 。 如 果 想 要 高 的 可 用 性 ,那么 此 时 就 需要 放松 一 致 性 的 要 求 ， 
此 时 可 以 配置 W=1, 这 样 使 得 写 操作 延迟 最 低 ,同时 通过 异步 的 机 制 更 新 剩余 的 N 一 W 个 
节点 。 

当 存 储 系统 保证 最 终 一 致 性 时 ,存储 系统 的 配置 一 般 是 W 十 R< 二 N, 此 时 读 取 和 写 入 
操作 是 不 重 倒 的 ,不 一 致 性 的 窗口 就 依赖 于 存储 系统 的 异步 实现 方式 ,不 一 致 性 的 窗口 大 小 
也 就 等 于 从 更 新 开始 到 所 有 的 节点 都 异步 更 新 完成 之 间 的 时 间 。 
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一 般 来 说 ,Quorum 中 比较 典型 的 NRW 为 (3,2.2)。 

维护 最 终 一 致 性 

Cassandra 通过 4 个 技术 来 维护 数据 的 最 终 一 致 性 ,分 别 为 逆 粹 (Anti-Entropy)、 读 修 
复 (Read Repair) ,提示 移交 (Hinted Handoff) 和 分 布 式 删除 。 

1) 3g 

这 是 一 种 备份 之 间 的 同步 机 制 。 节 点 之 间 定 期 互相 检查 数据 对 象 的 一 致 性 ,这 里 采用 
的 检查 不 一 致 的 方法 是 Merkle Tree。 

2) 读 修复 

客户 端 读 取 某 个 对 象 的 时 候 , 触 发 对 该 对 象 的 一 致 性 检查 。 

读 取 Key A 的 数据 时 ,系统 会 读 取 Key A 的 所 有 数据 副本 ,如 果 发 现 有 不 一 致 , 则 进行 
一 致 性 修复 。 

如 果 读 一 致 性 要 求 为 ONE, 会 立即 返回 离 客 户 端 最 近 的 一 份 数 据 副 本 。 然 后 会 在 后 台 
执行 Read Repair。 这 意味 着 第 一 次 读 取 到 的 数据 可 能 不 是 最 新 的 数据 ; 如 果 读 一 致 性 要 
求 为 QUORUM , 则 会 在 读 取 超过 半数 的 一 致 性 的 副本 后 返回 一 份 副本 给 客户 端 ,剩余 节点 
的 一 致 性 检查 和 修复 则 在 后 台 执 行 ; 如 果 读 一 致 性 要 求 高 (ALL), 则 只 有 Read Repair 完成 
后 才能 返回 一 致 性 的 一 份 数据 副本 给 客户 端 。 可 见 , 该 机 制 有 利于 减少 最 终 一 致 的 时 间 
窗口 。 

3) 提示 移交 

对 写 操作 ,如 果 其 中 一 个 目标 节点 不 在 线 , 先 将 该 对 象 中 继 到 另 一 个 节点 上 ,中 继 节点 
等 目标 节点 上 线 再 把 对 象 给 它 。 

Key A 按照 规则 首先 写 入 节点 为 N1, 然 后 复制 到 N2。 假 如 NT 宕 机 ,如 果 写 入 N2 能 
满足 ConsistencyLevel 要 求 , 则 Key A 对 应 的 RowMutation 将 封装 一 个 带 hint 信息 的 头 
部 (包含 了 目标 为 N1 的 信息 ), 然 后 随机 写 人 一 个 节点 N3, 此 副本 不 可 读 。 同 时 正常 复制 
一 份 数据 到 N2, 此 副本 可 以 提供 读 。 如 果 写 N2 不 满足 写 一 致 性 要 求 , 则 写 会 失败 。 等 到 
NI 恢复 后 ,原本 应 该 写 人 N1 的 带 hint 头 的 信息 将 重新 写 回 NT. 

4) 分 布 式 删除 

单机 删除 非常 简单 ,只 需要 把 数据 直接 从 磁盘 上 去 掉 即 可 ,而 对 于 分 布 式 , 则 不 同 ,分 布 
式 删除 的 难点 在 于 : 如 果 某 对 象 的 一 个 备份 节点 A 当前 不 在 线 , 而 其 他 备份 节点 删除 了 该 
对 象 ,那么 等 A 再 次 上 线 时 , 它 并 不 知道 该 数据 已 被 删除 ,所 以 会 尝试 恢复 其 他 备份 节点 上 
的 这 个 对 象 , 这 使 得 删除 操作 无 效 。Cassandra 的 解决 方案 是 : 本 地 并 不 立即 删除 一 个 数据 
对 象 ,而 是 给 该 对 象 标记 一 个 hint, 定 期 对 标记 了 hint 的 对 象 进行 垃圾 回收 。 在 垃圾 回收 
之 前 ,hint 一 直 存 在 ,这 使 得 其 他 节点 可 以 有 机 会 由 其 他 几 个 一 致 性 保证 机 制 得 到 这 个 
hint。Cassandra 通过 将 删除 操作 转化 为 一 个 插入 操作 ,巧妙 地 解决 了 这 个 问题 。 

7. Cassandra 的 简单 环境 搭建 


1) 基本 配置 

首先 需要 准备 3 台 或 以 上 的 计算 机 。 下 面 假定 有 3 台 运 行 Linux 操作 系统 的 计算 机 ， 
IP 地 址 分 别 为 192. 168. 0. 100、192. 168. 0. 101 和 192. 168. 0. 102。 系 统 需要 安装 好 Java 
运行 时 环境 ,然后 到 这 里 下 载 0. 7 版 本 的 Cassandra 二 进 制 发 行 包 。 

挑选 其 中 的 一 台 机 开始 配置 , 先 展开 cassandra RITH 


第 6 章 大 数据 技术 原理 与 


4 
nr 


$ tar - zxvf apache - cassandra - $ VERSION. tar.gz 
$ cd apache - cassandra - $ VERSION 


其 中 的 conf/cassandra. yaml 文件 为 主要 配置 文件 ,0.7 版 以 后 不 再 采用 XML 格式 配置 文 
件 了 ,如 果 对 YAML 格式 不 熟悉 的 话 最 好 先 到 这 里 了 解 一 下 。 
Cassandra 在 配置 文件 里 默认 设 定 了 几 个 目录 : 


data file directories: /var/lib/cassandra/data 
commitlog directory: /var/lib/cassandra/commitlog 
saved caches directory: /var/lib/cassandra/saved caches 


data file directories 可 以 一 次 同时 设置 几 个 不 同 目录 ,cassandra 会 自动 同步 所 有 目录 
的 数据 。 另 外 在 日 志 配 置 文件 log4j-server. properties 也 有 一 个 默认 设 定 日 志文 件 的 目录 : 


1og4j. appender. R. File = /var/log/cassandra/system. log 


一 般 情 况 下 采用 默认 的 配置 即 可 ,除非 你 有 特殊 的 储存 要 求 , 所 以 现在 有 两 种 方案 : 一 
是 按照 默认 配置 创建 相关 的 目录 ,二 是 修改 配置 文件 采用 自己 指定 的 目录 。 

下 面 为 了 简单 起 见 采用 第 一 种 方案 : 

$ sudo mkdir - p /var/log/cassandra 

$ sudo chown - R 'whoami ' /var/log/cassandra 


$ sudo mkdir - p /var/lib/cassandra 
$ sudo chown - R 'whoami '/var/lib/cassandra 


上 面 的 "whoami' 是 Linux 指令 用 于 获取 当前 登录 的 用 户 名 ,如 果 你 不 准备 用 当前 登录 
用 户 运 行 Cassandra, Ab A ii 248 ‘whoami "替换 成 具体 的 用 户 名 。 

2) 有 关 集 群 的 配置 

由 于 Cassandra 采用 去 中 心 化 结构 ,所 以 当 集群 里 的 一 台 机 器 (节点 ) 启 动 之 后 需要 一 
个 途径 通知 当前 集群 (有 新 节点 加 入 ) ,Cassandra 的 配置 文件 里 有 一 个 seeds 的 设置 项 ,所 
谓 的 seeds 就 是 能 够 联系 集群 中 所 有 节点 的 一 台 计 算 机 ,假如 集群 中 所 有 的 节点 位 于 同一 
个 机 房 同 一 个 子 网 ,那么 只 要 随意 挑选 几 台 比较 稳定 的 计算 机 即 可 。 在 当前 的 例子 中 因为 
只 有 3 台 机 器 ,所 以 选 第 一 台 作 为 种 子 节点 ,配置 如 下 : 


seeds: 
— 192.168.0.100 


然后 配置 节点 之 前 通信 的 IP 地 址 : listen address: 192. 168. 0. 100, 
需要 注意 的 是 这 里 必须 使 用 具体 的 IP. 地 址 ,而 不 能 使 用 0. 0. 0. 0 这 样 的 地 址 。 
配置 Cassandra Thrift 客户 端 ( 应 用 程序 ) 访 问 的 IP 地 址 : 


rpc_address: 192.168.0.100 


这 项 可 以 使 用 0. 0. 0. 0 监听 一 台 机 器 所 有 的 网 络 接口 。Cassandra 的 Keyspaces 和 
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ColumnFamilies 不 再 需要 配置 了 ,它们 将 在 运行 时 创建 和 维护 。 

把 配置 好 的 Cassandra 复制 到 第 2 和 第 3 台 机 器 ,同时 创建 相关 的 目录 ,还 需要 修改 
listen address 和 rpc address 为 实际 机 器 的 IP 地 址 。 至 此 所 有 的 配置 完成 了 。 

3) 启动 Cassandra 各 个 节点 以 及 集群 管理 

启动 顺序 没什么 所 谓 , 只 要 保证 种 子 节点 启动 就 可 以 了 : 


$ bin/cassandra - f 


参数 -f 的 作用 是 让 Cassandra 以 前 端 程序 方式 运行 ,这 样 有 利于 调试 和 观察 日 志 信息 ， 
而 在 实际 生产 环境 中 这 个 参数 是 不 需要 的 ( 即 Cassandra 会 以 daemon 方式 运行 )。 
所 有 节点 启动 后 可 以 通过 bin/nodetool 工具 管理 集群 ,例如 查看 所 有 节点 运行 情况 : 


$ bin/nodetool - host 192.168.0.101 ring 


运行 结果 类 似 如 下 : 


Address Status State Load Owns Token 

159559... 

192.168.0.100 Up Normal 49.27 KB 39.32% 563215... 
192.168.0.101 Up Normal 54.42 KB 16.81% 849292... 
192.168.0.102 Up Normal 73.14 KB 43.86% 159559... 


命令 中 -host 参数 用 于 指定 nodetool 跟 哪 一 个 节点 通信 ,对 于 nodetool ring 命令 来 说 ， 
跟 哪 个 节点 通信 都 没有 区 别 , 所 以 可 以 随意 指定 其 中 一 个 节点 。 

从 上 面 结果 列表 可 以 看 到 运行 中 的 节点 是 否 在 线 .State 数据 负载 量 以 及 节点 Token 
(可 以 理解 为 节点 名 称 ,这 个 是 节点 第 一 次 启动 时 自动 产生 的 )。 我 们 可 以 使 用 nodetool 组 
合 token 对 具体 节点 进行 管理 ,例如 查看 指定 节点 的 详细 信息 


$ bin/nodetool - host 192.168.0.101 info 
运行 的 结果 大 致 如 下 : 
84929280487220726989221251643883950871 
Load : 54.42 KB 

Generation No : 1302057702 


Uptime (seconds) : 591 
Heap Memory (MB) : 212.14 / 1877.63 


查看 指定 节点 的 数据 结构 信息 
$ bin/nodetool - host 192.168.0.101 cfstats 


运行 结果 : 
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Keyspace: Keyspacel 
Read Count: 0 

Write Count: 0 
Pending Tasks: 0 
Column Family: CF1 
SSTable count: 1 


使 用 下 面 命令 可 以 移 除 一 个 已 经 下 线 的 节点 (例如 第 2 台 机 器 关机 了 或 者 坏 掉 了 ): 


$ bin/nodetool - host 192.168.0.101 removetoken 
84929280487220726989221251643883950871 


下 了 线 的 节点 如 何 重新 上 线 呢 ? 什么 都 不 用 做 ,只 需 启 动 Cassandra 程序 它 就 会 自动 
加 入 集群 了 。 

在 实际 运作 中 我 们 可 能 会 需要 隔 一 段 时 间 备 份 一 次 数据 (创建 一 个 快照 ), 这 个 操作 在 
Cassandra 里 非常 简单 : 


$ bin/nodetool - host 192.168.0.101 snapshot 


4) 测试 数据 的 读 写 
使 用 客户 端 组 件 加 单元 测试 是 首选 的 ,如 果 仅 想 知道 集群 是 否 正常 读 写 数据 ,可 以 用 
cassandra-cli 做 一 个 简单 测试 : 


$ bin/cassandra - cli - host 192.168.0.101 
接着 输入 如 下 语句 : 


create keyspace Keyspacel; 

use Keyspacel; 

create column family Users with comparator = UTF8Type and default validation class = UTF8Type; 
set Users[jsmith][first] = 'John'; 

set Users[jsmith][last] = 'Smith'; 

get Users[ jsmith]; 


上 面 语句 创建 了 一 个 名 为 “Keyspacel” 的 keyspace, 还 创建 了 一 个 名 为 “Users” 的 
Column Family, 最 后 向 Users 添加 了 一 个 item。 正 常 的 话 应 该 看 到 类 似 下 面 的 结果 : 


7» (column = first, value = John, timestamp = 1302059332540000) 
=> (column = last, value = Smith, timestamp = 1300874233834000) 
Returned 2 results. 


6.2.4 Redis 


1. Redis 简介 
Redis 是 一 种 面向 “ 键 / 值 ” 对 类 型 数据 的 分 布 式 NoSQL 数据 库 系 统 , 特 点 是 高 性 能 、 持 
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久 存 储 、 适 应 高 并 发 的 应 用 场景 。 它 起 步 较 晚 ,发 展 迅 速 ,目前 已 被 许多 大 型 机 构 采 用 ,例如 
Github, Redis 本 质 上 是 一 个 Key-Value 类 型 的 内 存 数据 库 ,很 像 memcached, 整 个 数据 库 
统统 加 载 在 内 存 当 中 进行 操作 ,定期 通过 异步 操作 把 数据 库 数据 flush 到 硬盘 上 进行 保存 。 
因为 是 纯 内 存 操作 ,Redis 的 性 能 非常 出 色 ,每 秒 可 以 处 理 超 过 10 万 次 读 写 操作 ,是 已 知性 
能 最 快 的 Key-Value DB。 

Redis 的 出 色 之 处 不 仅仅 是 性 能 ,Redis 最 大 的 魅力 是 支持 保存 多 种 数据 结构 ,此 外 单 
个 value 的 最 大 限制 是 1GB, 不 像 memcached 只 能 保存 1MB 的 数据 ,因此 Redis 可 以 用 来 
实现 很 多 有 用 的 功能 ,例如 用 它 的 List 来 做 FIFO 双向 链表 ,实现 一 个 轻 量 级 的 高 性 能 消息 
队列 服务 ,用 它 的 Set 可 以 做 高 性 能 的 tag 系统 等 。 另 外 Redis 也 可 以 对 存 人 的 Key-Value 
设置 expire 时 间 , 因 此 也 可 以 被 当 作 一 个 功能 加 强 版 的 memcached 来 用 。Redis 的 主要 缺 
点 是 数据 库容 量 受到 物理 内 存 的 限制 ,不 能 用 做 海量 数据 的 高 性 能 读 写 ,因此 Redis 适合 的 
场景 主要 局 限 在 较 小 数据 量 的 高 性 能 操作 和 运算 上 。 

2. Redis 的 数据 类 型 

Redis 并 不 是 简单 的 key-value 存储 ,实际 上 它 是 一 个 数据 结构 服务 器 ,支持 不 同类 型 
的 值 。 也 就 是 说 ,不 必 仅 仅 把 字符 串 当 作 键 所 指向 的 值 。 下 列 这 些 数据 类 型 都 可 作为 值 类 
型 : FIFE (string) JK Aist) EA (set) 、 有 序 集合 (orted set) , 希 表 (hash)。 

String 是 最 基本 的 一 种 数据 类 型 ,普通 的 key/value 存储 都 可 以 归 为 此 类 。String 类 型 
是 二 进 制 安全 的 。 意 思 是 redis 的 string 可 以 包含 任何 数据 。 例 如 jpg 图 片 或 者 序列 化 的 
对 象 。 从 内 部 实现 来 看 其 实 string 可 以 看 作 byte 数组 ,最 大 上 限 是 1GB。 

List 类 型 其 实 就 是 一 个 每 个 子 元 素 都 是 String 类 型 的 双向 链表 。 因 此 push 和 pop f 
令 的 算法 时 间 复 杂 度 都 是 O(1)。 另 外 list 会 记录 链表 的 长 度 。 所 以 len 操作 也 是 OC). 
链表 的 最 大 长 度 是 (2 的 32 次 方 一 1)。 我 们 可 以 通过 push, pop 操作 从 链表 的 头 部 或 者 尾 
部 添加 删除 元 素 。 这 使 得 list 既 可 以 用 作 栈 ,也 可 以 用 作 队 列 。 有 意思 的 是 list 的 pop 操 
作 还 有 阻塞 版 本 的 。 当 我 们 pop 一 个 list 对 象 时 ,如 果 list 是 空 ,或 者 不 存在 ,会 立即 返回 
nul。 但 是 阻塞 版 本 的 pop 则 可 以 阻塞 ,等 待 有 元 素 加 入 时 再 返回 ,当然 可 以 加 超时 时 间 , 超 
时 后 也 会 返回 nul. 

Set 是 String 类 型 的 无 序 集合 。set 元 素 最 大 可 以 包含 (2 的 32 次 方 一 1) 个 元 素 。set 
是 通过 hash table 实现 的 ,所 以 添加 、 删 除 、 查 找 的 复杂 度 都 是 OC). hash table 会 随 着 添 
加 或 者 删除 自动 的 调整 大 小 。 需 要 注意 的 是 调整 hash table 大 小 时 需要 同步 (获取 写 锁 ) 会 
阻塞 其 他 读 写 操作 。 关 于 set 集合 类 型 除了 基本 的 添加 删除 操作 ,其 他 有 用 的 操作 还 包含 
集合 的 取 并 集 (union) , 3€ 4E (intersection) 、 差 集 (difference)。 通 过 这 些 操 作 可 以 很 容易 地 
实现 sns 中 的 好 友 推 荐 和 blog 的 tag 功能 。 

Sorted set 和 set 一 样 也 是 string 类 型 元 素 的 集合 ,不 同 的 是 每 个 元 素 都 会 关联 一 个 
double 类 型 的 score。sorted set 的 实现 是 skip list 和 hash table 的 混合 体 当 元 素 被 添加 到 
集合 中 时 ,一 个 元 素 到 score 的 映射 被 添加 到 hash table 中 ,所 以 给 定 一 个 元 素 获 取 score 
的 开销 是 OCD , 另 一 个 score 到 元 素 的 映射 被 添加 到 skip list 并 按照 score 排序 ,所 以 就 可 
以 有 序 地 获取 集合 中 的 元 素 。 添 加 、 删 除 操 作 开 销 都 与 O(log(N)) 和 skip list 的 开销 一 致 ， 
redis 的 skip list 实现 用 的 是 双向 链表 ,这 样 就 可 以 逆序 从 尾部 取 元 素 。 

Hash 是 一 个 string 类 型 的 field 和 value 的 映射 表 , 它 的 添加 和 删除 操作 都 是 OC) OCF 
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均 )。hash 特别 适合 用 于 存储 对 象 。 相 较 于 将 对 象 的 每 个 字段 存 成 单个 string 类 型 ,将 一 
个 对 象 存 储 在 hash 类 型 中 会 占用 更 少 的 内 存 , 并 且 可 以 更 方便 地 存 取 整 个 对 象 。 省 内 存 的 
原因 是 新 建 一 个 hash 对 象 时 开始 是 用 zipmap( 又 称 为 small hash) 来 存储 的 。 这 个 zipmap 
其 实 并 不 是 hash table. {AZ zipmap 相 比 正常 的 hash. 实现 可 以 节省 不 少 hash 本 身 需 要 的 
一 些 元 数据 存储 开销 。 尽 管 zipmap 的 添加 、 删 除 、 查 找 都 是 O(n), 但 是 由 于 一 般 对 象 的 
field 数量 都 不 太 多 。 所 以 使 用 zipmap 也 是 很 快 的 ,也 就 是 说 添加 删除 平均 还 是 O(1)。 如 
果 field 或 者 value 的 大 小 超出 一 定 限制 后 ,redis 会 在 内 部 自动 将 zipmap 替换 成 正常 的 
hash 实现 ,这 个 限制 可 以 在 配置 文件 中 指定 。 

3. Redis 存储 机 制 

Redis 为 了 达到 最 快 的 读 写 速度 将 数据 都 读 到 内 存 中 ,并 通过 异步 的 方式 将 数据 写 和 人 
磁盘 。 所 以 redis 具有 快速 和 数据 持久 化 的 特征 。 如 果 不 将 数据 放 在 内 存 中 ,磁盘 I/O 速 
度 会 严重 影响 redis 的 性 能 。 在 内 存 越 来 越 便宜 的 今天 ,redis 将 会 越 来 越 受 欢迎 。 如 果 设 
置 了 最 大 使 用 的 内 存 , 则 数据 已 有 记录 数 达 到 内 存 限 值 后 不 能 继续 插入 新 值 。 

redis 的 默认 配置 中 ,每 60s 如 果 纪 录 更 改 数 达 到 1 万 条 就 需要 写 和 人 到 硬盘 中 去 ,但 实 
际 上 由 于 超过 了 这 个 数 ,我 们 的 redis 几乎 不 停 地 在 写 入 数据 到 硬盘 上 ; 写 入 数据 到 硬盘 
时 ,redis 是 先 把 数据 写 人 到 一 个 临时 文件 ,然后 重 命名 为 在 配置 文件 设 定 的 数据 文件 名 。 
而 前 面 说 到 ,加 载 数据 要 1 到 2min, 写 入 数据 应 该 也 在 lmin 左右 ; 写 和 出 来 的 文件 差不多 
1 一 2GB; 这 样 ,服务 器 几乎 一 直 保持 着 每 分 钟 写 一 个 2G 的 文件 的 这 种 IO 的 负载 ,磁盘 基 
本 一 直 处 于 工作 状态 。 

4. Redis 分 布 模式 

redis 支持 主 从 的 模式 。 在 Redis 分 布 模式 中 ,Master 会 将 数据 同步 到 slave, 而 slave 
不 会 将 数据 同步 到 master, Slave 启动 时 会 连接 master 来 同步 数据 。 这 是 一 个 典型 的 分 布 
式 读 写 分 离 模 型 。 我 们 可 以 利用 master 来 插入 数据 ,slave 提供 检索 服务 。 这 样 可 以 有 效 
减少 单个 机 器 的 并 发 访问 数量 。 

读 写 分 离 模 型 与 数据 分 片 模型 

通过 增加 Slave DB 的 数量 , 读 的 性 能 可 以 线性 增长 。 为 了 避免 Master DB 的 单 点 故 
障 , 集 群 一 般 都 会 采用 两 台 Master DB 作 双 机 热 备 ,所 以 整个 集群 的 读 和 写 的 可 用 性 都 非 
常 高 。 

读 写 分 离 架 构 的 缺陷 在 于 ,不 管 是 Master 还 是 Slave, 每 个 节点 都 必须 保存 完整 的 数 
据 , 如 果 在 数据 量 很 大 的 情况 下 ,集群 的 扩展 能 力 还 是 受 限 于 单个 节点 的 存储 能 力 。 

对 于 写 密 集 类 型 的 应 用 , 读 写 分 离 架 构 并 不 适合 。 为 了 解决 读 写 分 离 模 型 的 缺陷 ,可 以 
将 数据 分 片 模型 应 用 进来 。 可 以 将 每 个 节点 都 看 成 是 独立 的 master, 然 后 通过 业务 实现 数 
据 分 片 。 

结合 上 面 两 种 模型 ,可 以 将 每 个 master 设计 成 由 一 个 master 和 多 个 slave 组 成 的 
模型 。 

5. Redis 数据 操作 

Key 操作 

DEL 操作 : 删除 给 定 的 一 个 或 多 个 key ;不 存在 的 key 会 被 忽略 。 返 回 值 : 被 删除 key 
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的 数量 。 
语法 : 


DEL key [key ...] 
示例 : 


删除 单个 key 

redis > DEL name 

(integer) 1 
删除 一 个 不 存在 的 key 

redis > DEL name 

(integer) 0 

同时 删除 多 个 key 

redis > DEL name type website 
(integer) 3 


SCAN 操作 : SCAN 命令 及 其 相关 的 SSCAN 命令 、HSCAN 命令 和 ZSCAN 命令 都 用 
T Fit Hh (X ncrementally iterate) 一 集 元 素 (a collection of elements), 

SCAN 命令 用 于 迭代 当前 数据 库 中 的 数据 库 键 。 

SSCAN 命令 用 于 迭代 集合 键 中 的 元 素 。 

HSCAN 命令 用 于 迭代 哈 希 键 中 的 键 值 对 。 

ZSCAN 命令 用 于 迭代 有 序 集合 中 的 元 素 ( 包 括 元 素 成 员 和 元 素 分 值 ) 。 

以 上 列 出 的 四 个 命令 都 支持 增 量 式 和 迭代 ,它们 每 次 执行 都 只 会 返回 少量 元 素 , 所 以 这 些 
命令 可 以 用 于 生产 环境 ,而 不 会 出 现 像 KEYS 命令 、SMEMBERS 命令 带 来 的 问题 一 一 当 
KEYS 命令 被 用 于 处 理 一 个 大 的 数据 库 时 ,又 或 者 SMEMBERS 命令 被 用 于 处 理 一 个 大 的 
集合 键 时 ,它们 可 能 会 阻塞 服务 器 达 数 秒 之 久 。 


SCAN cursor [MATCH pattern] [COUNT count] 
示例 : 


从 第 一 个 记录 (记录 0) 开 始 扫描 
redis 127.0.0.1:6379 > scan 0 
EUREN 
2) 1) "key:12" 

2) "key:8" 

3) "key:4" 

4) "key:14" 

5) "key:16" 

6) "key:17" 

7) "key:15" 

8) "key:10" 

9) "key:3" 

10) "key:7" 

11) "key:1" 
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返回 的 结果 中 ,第 一 项 是 扫描 停止 时 的 游标 位 置 ,第 二 项 是 扫描 过 的 键 。 
EXISTS 操作 : 检查 给 定 key 是 否 存在 。 若 key 存在 ,返回 1, 否 则 返回 0。 
语法 : 


EXISTS key 
示例 : 


redis > EXISTS db1 
(integer) 1 
redis > EXISTS db2 
(integer) 0 


MOVE 操作 : 将 当前 数据 库 的 key 移动 到 给 定 的 数据 库 db 当中 。 如 果 当 前 数据 库 
( 源 数 据 库 ) 和 给 定数 据 库 ( 目 标 数据 库 ) 有 相同 名 字 的 给 定 key, 或 者 key 不 存在 于 当前 数 
据 库 , 那 么 MOVE 没有 任何 效果 。 因 此 ,也 可 以 利用 这 一 特性 ,将 MOVE 当 作 锁 (locking) 
原 语 (primitive)。 移 动 成 功 返 回 1, 失 败 则 返回 0。 

语法 : 


MOVE key db 
示例 : 


redis > SELECT 0 # redis 默认 使 用 数据 库 0, 为 了 清晰 起 见 , 这 里 再 显 式 指定 一 次 . 

OK 

redis > SET song "secret base - Zone" 

OK 

redis > MOVE song 1 # 将 song 移动 到 数据 库 1 

(integer) 1 

redis; EXISTS song # song 已 经 被 移 走 

(integer) 0 

redis > SELECT 1 # 使 用 数据 库 1 

OK 

redis:1> EXISTS song + jiE3E song 被 移 到 了 数据 库 1 (注意 命令 提示 符 变 成 了 #"redis:1", 
# 表 明正 在 使 用 数据 库 1) 


RENAME 操作 : 将 key 改名 为 newkey。 当 key 和 newkey 相同 ,或 者 key 不 存在 时 ， 


返回 一 个 错误 。 当 newkey 已 经 存在 时 , RENAME 命令 将 覆盖 旧 值 。 
语法 : 
RENAME key newkey 
示 例 : 
# key FEH newkey 不 存在 
redis > SET message "hello world" 


OK 
redis » RENAME message greeting 
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OK 
redis > EXISTS message + message 不 复 存 在 
(integer) 0 
redis > EXISTS greeting # greeting 取而代之 
(integer) 1 


# 当 key 不 存在 时 ,返回 错误 
redis > RENAME fake key never exists 
(error) ERR no such key 


6. Redis 平台 搭建 
第 一 步 , 下 载 安装 
进入 redis. io 官方 网 站 : 


wget http://redis. googlecode. com/files/redis - 2.4.15.tar.gz 

tar xzf redis - 2.4.5.tar.gz // 这 里 假设 解压 缩 到 /usr/local/redis 
cd redis - 2.4.5 

make 

make install 

cd utils 

./install server 

Welcome to the redis service installer 

This script will help you easily set up a running redis server 

Please select the redis port for this instance: [6379] 

Selecting default: 6379 

Please select the redis config file name [/etc/redis/6379. conf] 
Selected default - /etc/redis/6379.conf 

Please select the redis log file name [/var/log/redis 6379.10g] 
Selected default - /var/log/redis 6379.10g 

Please select the data directory for this instance [/var/lib/redis/6379] 
Selected default - /var/lib/redis/6379 

Please select the redis executable path [ /usr/local/bin/redis - server] 
Copied /tmp/6379.conf => /etc/init.d/redis 6379 

Installing service... 

Successfully added to chkconf ig! 

Successfully added to runlevels 345! 

Starting Redis server... 

Installation successful! 


至 此 Redis 自动 安装 到 /usr/local/bin 目录 下 。 在 该 目录 下 生成 几 个 可 执行 文件 ,分 别 


是 redis-server ,redis-cli, redis-benchmark , redis-stat , redis-check-aof ,它们 的 作用 如 下 : 


redis-server; Redis 服务 器 的 daemon 启动 程序 ; 

redis-cli: Redis 命令 行 操作 工具 。 当 然 , 也 可 以 用 telnet 根据 其 纯 文本 协议 来 操作 ; 
redis-benchmark: Redis 性 能 测试 工具 ,测试 Redis 在 用 户 系统 及 配置 下 的 读 写 性 能 ; 
redis-stat; Redis 状态 检测 工具 ,可 以 检测 Redis 当前 状态 参数 及 延迟 状况 ; 
redis-check-aof: 更 新 日 志 检 查 。 
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第 二 步 : 启动 服务 器 
安装 时 的 最 后 一 步 install_server 脚本 会 生成 启动 命令 文件 ,下 面 就 是 一 个 执行 例子 : 


/etc/init. d/redis 6379 start 


默认 端口 为 6379, 若 使 用 其 他 端口 可 自行 修改 配置 文件 redis. conf。 可 通过 命令 启动 
多 个 Redis 实例 : 


cd /usr/local/redis 
./redis - server redis. conf 


第 三 步 : 客户 端 访问 


redis - cli 
redis? set foo bar 
OK 

redis > get foo 
"bar" 


指定 端口 的 客户 端 访问 : 
redis- cli - p 6380 

第 四 步 : 关闭 服务 器 
关闭 默认 端口 的 服务 器 : 


/etc/init.d/redis 6379 stop 
关闭 指定 端口 的 服务 器 : 


redis -cli - p 6380 shutdown 


6.2.5 MongoDB 


1. MongoDB 简介 

MongoDB 是 一 个 面向 集合 的 、 模 式 自由 的 文档 型 数据 库 。 面 向 集合 的 意思 是 数据 被 
分 组 到 若干 集合 ,这 些 集合 称 作 聚 集 (collections)。 在 数据 库 里 每 个 聚集 都 有 一 个 唯一 的 名 
字 , 可 以 包含 无 限 个 文档 。 聚 集 是 RDBMS 中 表 的 同义词 ,区 别 是 聚集 不 需要 进行 模式 定 
义 。 模 式 自由 的 意思 是 数据 库 并 不 需要 知道 将 存 人 到 聚集 中 的 文档 的 任何 结构 信息 。 实 际 
上 ,可 以 在 同一 个 聚集 中 存储 不 同 结构 的 文档 。 文 档 型 的 意思 是 存储 的 数据 是 键 - 值 对 的 集 
合 , 键 是 字符 串 , 值 可 以 是 数据 类 型 集合 里 的 任意 类 型 .包括 数组 和 文档 。 把 这 个 数据 格式 
称 作 “[BSON]” 即 “Binary Serialized dOcument Notation", 

MongoDB 的 特点 : 
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面向 文档 存储 : (类 JSON 数据 模式 简单 而 强大 ) 。 

高 效 的 传统 存储 方式 : 支持 二 进 制 数据 及 大 型 对 象 ( 如 照片 和 视频 ) 。 

复制 及 自动 故障 转移 : Mongo 数据 库 支持 服务 器 之 间 的 数据 复制 ,支持 主 - 从 模式 及 服 
务 器 之 间 的 相互 复制 和 自动 故障 转移 。 

Auto-Sharding 自动 分 片 支持 云 级 扩展 性 (处 于 早期 alpha 阶段 ): 自动 分 片 功能 支持 
水 平 的 数据 库 集群 ,可 动态 添加 额外 的 机 器 。 

动态 查询 : 它 支持 丰富 的 查询 表达 式 。 查 询 指 令 使 用 JSON 形式 的 标记 ,可 轻易 查询 
文档 中 内 赂 的 对 象 及 数组 。 

全 索引 支持 : 包括 文档 内 嵌 对 象 及 数组 。Mongo 的 查询 优化 器 会 分 析 查 询 表 达 式 ,并 
生成 一 个 高 效 的 查询 计划 。 

支持 RUBY、PYTHON、JAVA、C++ PHP 等 多 种 语言 。 

面向 集合 存储 , 易 存 储 对 象 类 型 的 数据 : 存储 在 集合 中 的 文档 ,被 存储 为 键 - 值 对 的 形 
式 。 键 用 于 唯一 标识 一 个 文档 ,为 字符 串 类 型 ,而 值 则 可 以 是 各 种 复杂 的 文件 类 型 ; 

。 模式 自由 : 存储 在 mongodb 数据 库 中 的 文件 ,我 们 不 需要 知道 它 的 任何 结构 定义 。 

* 支持 完全 索引 ,包含 内 部 对 象 。 

。 支持 复制 和 故障 恢复 。 

。 自动 处 理 碎 片 : 自动 分 片 功能 支持 水 平 的 数据 库 集群 ,可 动态 添加 额外 的 机 器 。 

查询 监视 : Mongo 包含 一 个 监视 工具 用 于 分 析 数 据 库 操 作 的 性 能 。 

2. MongoDB 的 功能 

查询 : 基于 查询 对 象 或 者 类 SQL 语句 搜索 文档 。 查 询 结果 可 以 排序 ,进行 返回 大 小 限 
制 ,可 以 跳 过 部 分 结果 集 ,也 可 以 返回 文档 的 一 部 分 。 

插入 和 更 新 : 插入 新 文档 ,更 新 已 有 文档 。 

索引 管理 : 对 文档 的 一 个 或 者 多 个 键 ( 包 括 子 结构 ) 创 建 索 引 , 删 除 索引 等 。 

常用 命令 : 所 有 MongoDB 操作 都 可 以 通过 socket 传输 的 DB 命令 来 执行 。 

MongoDB 适用 范围 : (1) 适 合 实时 的 插入 、 更 新 与 查询 ,并 具备 应 用 程序 实时 数据 存储 
所 需 的 复制 及 高 度 伸缩 性 ;(2) 适 合作 为 信息 基础 设施 的 持久 化 缓存 层 ; (3) 适合 由 数 十 或 
数 百 台 服 务 器 组 成 的 数据 库 。 因 为 Mongo 已 经 包含 对 MapReduce 引擎 的 内 置 支持 ; 
(4) Mongo 的 BSON 数据 格式 非常 适合 文档 化 格式 的 存储 及 查询 ; (5) 网 站 数据 : Mongo 
非常 适合 实时 的 插入 、 更 新 与 查询 ,并 具备 网 站 实时 数据 存储 所 需 的 复制 及 高 度 伸缩 性 ; 
(6) 缓 存 : 由 于 性 能 很 高 ,Mongo 也 适合 作为 信息 基础 设施 的 缓存 层 。 在 系统 重启 之 后 ,由 
Mongo 搭建 的 持久 化 缓存 层 可 以 避免 下 层 的 数据 源 过 载 ; (7) 大 尺寸 , 低 价值 的 数据 : 使 用 
传统 的 关系 型 数据 库存 储 一 些 数 据 时 可 能 会 比较 昂贵 ,在 此 之 前 ,很 多 时 候 程 序 员 往往 会 选 
择 传统 的 文件 进行 存储 ; (8) 高 伸缩 性 的 场景 : Mongo 非常 适合 由 数 十 或 数 百 台 服 务 器 组 
成 的 数据 库 。Mongo 的 路 线 图 中 已 经 包含 对 MapReduce 引擎 的 内 置 支持 ; (9) 用 于 对 象 及 
JSON 数据 的 存储 : Mongo 的 BSON 数据 格式 非常 适合 文档 化 格式 的 存储 及 查询 。 

MongoDB 不 适用 范围 :(1) 高 度 事 务 性 的 系统 ; (2) 传 统 的 商业 智能 应 用 ;(3) 极 为 复 
A SQL 查询 ; (4) 高 度 事务 性 的 系统 : 例如 银行 或 会 计 系统 。 传 统 的 关系 型 数据 库 目 前 
还 是 更 适用 于 需要 大 量 原子 性 复杂 事务 的 应 用 程序 ; (5) 传 统 的 商业 智能 应 用 : 针对 特定 问题 
的 HI 数据 库 会 对 产生 高 度 优化 的 查询 方式 。 对 于 此 类 应 用 ,数据 仓库 可 能 是 更 合适 的 选择 。 
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3. MongoDB 数据 组 织 形式 


MongoDB 组 织 数据 的 方式 如 下 : 

Key-Value 对 > 文档 > 集合 > 数据 库 

多 个 Key-Value 对 组 织 起 来 形成 类 似 于 JSON 格式 的 文档 ,多 个 文档 组 织 成 为 一 个 集 
合 , 多 个 集合 组 织 起 来 ,就 形成 了 数据 库 (database) 。 单 个 MongoDB 实例 可 以 使 用 多 个 数 
据 库 ,每 个 数据 库 都 是 独立 运作 的 ,可 以 有 单独 的 权限 ,每 个 数据 库 的 数据 被 分 开 保 存在 不 
同 的 文件 里 。 

4. MongoDB 语法 

值得 注意 的 一 点 是 ,MongoDB 中 并 不 像 SQL 数据 库 一 样 需要 用 户 手动 创建 数据 库 和 
集合 ,而 是 在 用 户 第 一 次 向 数据 库 和 集合 中 添加 记录 时 ,记录 相应 的 数据 库 和 集合 就 被 创 
建 了 。 

查看 所 有 数据 库 

show dbs 

查看 所 有 的 collection 

show collections 

删除 collection 

db. collect. drop() // 其 中 db 为 数据 库 名 ,collect 为 集合 名 

删除 当前 的 数据 库 

db. dropDatabase( ) 

feti AE p e 

一 些 修改 数据 的 例子 : 

db. collect, save( { 'name': 'ysz'. ‘address’: | 'city': 'beijing', 'post':100096;) 

# 存 储 数组 对 象 

db. collect, save( { 'Uid': 'xxx@yyy. com’, 'Al':[ 'test-1 @yyy. com' 'test-2@ yyy. com' ]}) 

# 根 据 query 条 件 修 改 , 如 果 不 存在 则 插入 ,允许 修改 多 条 记录 

db. collect, update({'yy':5).{('$ set’: {'xx':2}},upsert=true, multi= true) 

+ 删除 yy=5 的 记录 

db. foo. remove( ( 'yy':5}) 

# 删 除 所 有 的 记录 

db. foo. remove() 

一 些 查询 数据 的 例子 : 

查询 age >= 25 的 记录 

db. collect. find({age: { $ gte: 25}}); 

相当 于 : select * from userInfo where age >= 25; 

查询 age «— 25 的 记录 

db. collect. find( (age: { $ Ite: 25} }); 

查询 age >= 23 JF A age <= 26 

db. collect. find( (age: { $ gte: 23. $1te: 26}}); 
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按照 年 龄 排序 

升序 : db. collect. find(). sort({age: 1}); 

降序 : db. collect. find(). sort({age: —1}); 

查询 记录 条 数 count() 

db. users. find(). count( ; 

5. MongoDB 平台 搭建 

Mongodb 的 三 种 集群 方式 的 搭建 : Replica Set/Sharding/Master-Slaver, iX Œ Hb ji IH 
最 简单 的 集群 搭建 方式 (生产 环境 ) ,如 果 有 多 个 节点 可 以 此 类 推 或 者 查看 官方 文档 。 

Replica Set: Replica Set 是 集群 当中 包含 了 多 份 数据 ,保证 主 节点 挂 掉 了 , 备 节点 能 继 
续 提供 数据 服务 ,提供 的 前 提 就 是 数据 需要 和 主 节点 一 致 。 

MongoDB 架构 如 图 6-5 Jif as. Mongodb(M) 表 示 主 节点 , Mongodb(S) 表 示 备 节点 ， 
Mongodb(A) 表 示 仲 裁 节点 。 主 备 节点 存储 数据 ,仲裁 节点 不 存储 数据 。 窜 户 端 同时 连接 
主 节点 与 备 节点 ,不 连接 仲裁 节点 。 默 认 设置 下 , 主 节 点 提供 所 有 增删 查 改 服务 , 备 节 点 不 
提供 任何 服务 。 但 是 可 以 通过 设置 使 备 节点 提供 查询 服务 ,这样 就 可 以 减少 主 节点 的 压力 ， 
当 客户 端 进行 数据 查询 时 ,请 求 自动 转 到 备 节点 上 。 这 个 设置 叫 作 Read Preference 
Modes, 同 时 Java 客户 端 提 供 了 简单 的 配置 方式 ,可 以 不 必 直 接 对 数据 库 进行 操作 。 仲 裁 
节点 是 一 种 特殊 的 节点 , 它 本 身 并 不 存储 数据 ,主要 的 作用 是 决定 哪 一 个 备 节点 在 主 节点 挂 
掉 之 后 提升 为 主 节 点 ,所 以 客户 端 不 需要 连接 此 节点 。 这 里 虽然 只 有 一 个 备 节点 ,但 是 仍然 
需要 一 个 仲裁 节点 来 提升 备 节点 级 别 。 编 者 开始 也 不 相信 必须 要 有 仲裁 节点 ,但 是 试 过 没 
仲裁 节点 时 , 主 节点 挂 了 , 备 节点 还 是 备 节 点 ,所 以 我 还 是 需要 它 的 。 
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图 6-5 MongoDB 架构 


介绍 完了 集群 方案 ,那么 现在 就 开始 搭建 了 。 

1) 建立 数据 文件 夹 

一 般 情况 下 不 会 把 数据 目录 建立 在 mongodb 的 解压 目录 下 ,不 过 这 里 为 了 方便 起 见 ， 
就 建 在 mongodb 解压 目录 下 吧 。 


mkdir - p /mongodb/data/master 
mkdir - p /mongodb/data/slaver 
mkdir - p /mongodb/data/arbiter 

# 三 个 目录 分 别 对 应 主 、 备 、 仲 裁 节点 


2) 建立 配置 文件 
由 于 配置 比较 多 ,所 以 将 配置 写 到 文件 里 。 
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f master. conf 

dbpath = /mongodb/data/master 
logpath = /mongodb/log/master.log 
pidfilepath = /mongodb/master. pid 
directoryperdb - true 

logappend - true 

replSet = testrs 

bind ip = 10.10.148.130 

port - 27017 

oplogSize - 10000 

fork- true 

noprealloc = true 


# slaver. conf 

dbpath = /mongodb/data/slaver 
logpath = /mongodb/log/ slaver. log 
pidfilepath = /mongodb/slaver. pid 
directoryperdb = true 

logappend = true 

replSet = testrs 

bind_ip = 10.10.148.131 

port = 27017 

oplogSize = 10000 

fork = true 

noprealloc = true 


# arbiter. conf 

dbpath = /mongodb/data/arbiter 
logpath = /mongodb/1og/arbiter. log 
pidfilepath = /mongodb/arbiter. pid 
directoryperdb = true 

logappend = true 

replSet = testrs 

bind_ip = 10.10.148.132 

port = 27017 

oplogSize = 10000 

fork = true 

noprealloc = true 


参数 解释 : 

dbpath: 数据 存放 目录 

logpath: 日 志 存 放 路 径 

pidfilepath: 进程 文件 ,方便 停止 mongodb 

directoryperdb: 为 每 一 个 数据 库 按照 数据 库 名 建立 文件 夹 存放 
logappend: 以 追加 的 方式 记录 日 志 

replSet: replica set 的 名 字 
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bind ip: mongodb 所 绑 定 的 ip 地 址 

port; mongodb 进程 所 使 用 的 端口 号 ,默认 为 27017 

oplogSize: mongodb 操作 日 志文 件 的 最 大 大 小 。 单 位 为 MB, 默 认为 硬盘 剩余 空间 
的 5% 

fork: 以 后 台 方 式 运 行进 程 

noprealloc: 不 预先 分 配 存 储 

3) 启动 mongodb 

进入 每 个 mongodb 节点 的 bin 目录 下 


-/monood - f master. conf 
./mongod - f slaver. conf 
./mongod - f arbiter. conf 


注意 配置 文件 的 路 径 一 定 要 保证 正确 ,可 以 是 相对 路 径 也 可 以 是 绝对 路 径 。 

4) 配置 主 、 备 .仲裁 节点 

可 以 通过 客户 端 连接 mongodb ,也 可 以 直接 在 三 个 节点 中 选择 一 个 连接 mongodb 。 

. /mongo 10.10.148.130:27017 # ip 和 port 是 某 个 节点 的 地 址 

> use admin 

>cfg={ id:"testrs", members:[ ( id:0, host: '10. 10. 148. 130: 27017 ', priority:2), ( id:1, 
host: '10.10. 148. 131:27017' , priority:1), ( id:2, host: 10. 10. 148. 132: 27017 ', arbiterOnly: 


true}] ); 
> rs. initiate(cfg) # 使 配置 生效 


cfg 可 以 是 任意 的 名 字 , 当然 最 好 不 要 是 mongodb 的 关键 字 ,conf、config 都 可 以 。 最 
外 层 的 _id 表示 replica set 的 名 字 ,members 里 包含 的 是 所 有 节点 的 地 址 以 及 优先 级 。 优 先 


级 最 高 的 即 成 为 主 节 点 , 即 这 里 的 10. 10. 148. 130:27017。 特 别 注意 的 是 ,对 于 仲裁 节点 ， 
需要 有 个 特别 的 配置 一 一 arbiterOnly:true。 这 个 千 万 不 能 少 了 ,不 然 主 备 模式 就 不 能 


配置 的 生效 时 间 根 据 不 同 的 机 器 配置 会 有 长 有 短 , 配 置 不 错 的 话 基 本 上 十 几 秒 内 就 能 
生效 ,有 的 配置 需要 一 两 分 钟 。 如 果 生 效 了 ,执行 rs. statusQ 〇 命令 会 看 到 如 下 信息 : 


{ 

"set" : "testrs", 

"date" : ISODate("2013 - 01 - 05T02:44:432"), 

"nmyState" : 1, 

"members" : [ 

{ 

e 
"name" : "10.10.148.130:27017", 
"health" : 1, 
"state" : 1, 
"stateStr" : "PRIMARY", 
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"uptime" : 200, 

"optime" : Timestamp(1357285565000, 1), 
"optimeDate" : ISODate("2013 - 01 - 04T07:46:052"), 
"self" : true 


( "odd" :1, 
"name" : "10.10.148.131:27017", 
"health" : 1, 


"uptime" : 200, 
"optime" : Timestamp(1357285565000, 1), 
"optimeDate" : ISODate("2013 - 01 - 04T07:46:052"), 
"lastHeartbeat" : ISODate("2013 - 01 - 05T02:44:422"), 
"pingMs" : 0 
{ Has Cir 
"name" : "10.10.148.132:27017", 
"health" : 1, 
"state" : 7, 
"stateStr" : "ARBITER", 
"uptime" : 200, 
"lastHeartbeat" : ISODate("2013 - 01 - 05T02:44:422"), 
"pingMs" : 0 


oe 


如 果 配 置 正在 生效 ,其 中 会 包含 如 下 信息 :"stateStr”:"RECOVERING"。 同 时 可 以 
查看 对 应 节点 的 日 志 , 发 现 正在 等 待 别 的 节点 生效 或 者 正在 分 配 数 据 文件 。 

现在 基本 上 已 经 完成 了 集群 的 所 有 搭建 工作 。 至 于 测试 工作 , 留 给 大 家 自己 试 试 。 
个 是 往 主 节点 插入 数据 ,能 从 备 节点 查 到 之 前 插入 的 数据 (查询 备 节点 可 能 会 遇 到 某 个 问 
题 ,可 以 自己 去 网 上 查 查 看 )。 二 是 停 掉 主 节点 , 备 节 点 能 变 成 主 节 点 提供 服务 。 三 是 恢复 
主 节点 , 备 节点 也 能 恢复 其 角色 ,而 不 是 继续 充当 主 节 点 的 角色 。 二 和 三 都 可 以 通过 rs 
. status() 命 令 实 时 查看 集群 的 变化 。 

Sharding: 和 Replica Set 类 似 ,都 需要 一 个 仲裁 节点 ,但 是 Sharding 还 需要 配置 节点 
is 节点 。 就 三 种 集群 搭建 方式 来 说 ,这 种 是 最 复杂 的 ,其 部 署 结 构 如 图 6-6 所 示 。 

) 启动 数据 节点 


./mongod -- fork -- dbpath ../data/seti/ -- logpath ../log/seti.log -- replSet test 
#192. 168.4. 43 

./mongod -- fork -- dbpath ../data/set2/ -- logpath ../log/set2. log -- replSet test 
3: 192.168.4.44 

./mongod -- fork -- dbpath ../data/set3/ -- logpath ../log/set3.log -- replSet test 
1$ 192.168.4.45 决策 ,不 存储 数据 
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MongoDB Client 


EIS eS ee ee 


f Mongodb(C1)} || [ Mongodbc2) ) i 
i i 


4 


À .. Machine2__ j 


i 1 
( Mongodb(M) E Mongodb(S) 上 一 MoneodbA) I | 


Machined ! | MachineS  ! | Machine6 — ! 
4 al a 


图 6-6 MongoDB 部 署 架构 
启动 配置 节点 


./mongod -- configsvr -- dbpath ../config/seti/ -- port 20001 -- fork -- logpath ../log/ 
conf1. log 

# 192.168. 4.30 

./mongod -- configsvr -- dbpath ../config/set2/ -- port 20002 -- fork -- logpath ../log/ 
conf2. log 

$ 192.168. 4.31 


3) 启动 路 由 节点 


./mongos -- configdb 192. 168. 4. 30: 20001, 192. 168. 4. 31: 20002 -- port 27017 -- fork -- 


logpath . . /1og/root. log 
#192.168.4.29 


这 里 我 们 没有 用 配置 文件 的 方式 启动 ,其 中 的 参数 意义 大 家 应 该 都 明白 。 一 般 来 说 一 
个 数据 节点 对 应 一 个 配置 节点 ,仲裁 节点 则 不 需要 对 应 的 配置 节点 。 注 意 在 启动 路 由 节点 
时 ,要 将 配置 节点 地 址 写 入 到 启动 命令 里 。 
4) 配置 Replica Set 
这 里 可 能 会 有 点 奇怪 为 什么 Sharding 会 需要 配置 Replica Set。 其 实 想 想 也 能 明白 ,多 
个 节点 的 数据 肯定 是 相关 联 的 ,如 果 不 配 一 个 Replica Set. 怎 么 标识 是 同一 个 集群 的 呢 。 这 
也 是 mongodb 的 规定 。 配 置 方式 和 之 前 所 说 的 一 样 , 定 一 个 cfg ,然后 初始 化 配置 。 


. /nongo 192.168.4.43:27017 # ip M port 是 某 个 节点 的 地 址 

> use admin 

»cfg-( id:"testrs", members:[ ( id:0,host:'192.168.4.43:27017',priority:2), ( id:1,host: 
192.168. 4. 44:27017 ', priority:1), 

{_id:2, host: '192.168.4.45:27017', arbiterOnly:true)] ); 

> xs. initiate(cfg) # 使 配置 生效 
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5) 配置 Sharding 


. /mongo 192.168.4.29:27017 划 这 里 必须 连接 路 由 节点 

> sh. addShard(" test/192.168.4.43:27017") 

f test 表示 replica set 的 名 字 , 当 把 主 节 点 添加 到 shard 以 后 ,会 自动 找到 set FHE E ARTA 
> db. runComnand( {enableSharding:"diameter_test"}) 

f diameter test is database name 

> db. runCommand( ( shardCollection: "diameter test.dcca dccr test", key: (" avpSessionId":1) )) 


第 一 个 命令 很 容易 理解 ,第 二 个 命令 是 对 需要 进行 Sharding 的 数据 库 进 行 配置 ,第 三 
个 命令 是 对 需要 进行 Sharding 的 Collection 进行 配置 ,这 里 的 deca. decr. test 即 为 
Collection 的 名 字 。 另 外 还 有 个 key, 这 个 是 比较 关键 的 ,对 于 查询 效率 会 有 很 大 的 影响 , 具 
体 可 以 查看 Shard Key Overview。 

到 这 里 Sharding 也 已 经 搭建 完成 了 ,以 上 只 是 最 简单 的 搭建 方式 ,其 中 某 些 配置 仍然 
使 用 的 是 默认 配置 。 如 果 设 置 不 当 , 会 导致 效率 异常 低下 ,所 以 建议 大 家 多 看 看 官方 文档 再 
进行 默认 配置 的 修改 。 

Master-Slaver 是 最 简单 的 集群 搭建 ,不 过 准确 说 也 不 能 算是 集群 ,只 能 说 是 主 备 。 并 
且 官 方 已 经 不 推荐 这 种 方式 ,所 以 在 这 里 只 是 简单 介绍 ,搭建 方式 也 相对 简单 。 


./mongod -- master -- dbpath /data/masterdb/ # 主 节点 
./mongod -- slave -- source < masterip:masterport > -- dbpath /data/slavedb/ # 备 节点 


基本 上 只 要 在 主 节点 和 备 节点 上 分 别 执行 这 两 条 命令 , Master-Slaver 就 算 搭 建 完 
成 了 。 

以 上 三 种 集群 搭建 方式 首选 Replica Set, 只 有 真 的 是 大 数据 ,Sharding 才能 显现 威力 ， 
毕 竞 备 节点 同步 数据 是 需要 时 间 的 。Sharding 可 以 将 多 片 数 据 集中 到 路 由 节点 上 进行 一 
些 对 比 ,然后 将 数据 返回 给 客户 端 ,但 是 效率 还 是 比较 低 。 


6.3 大 数据 计算 模式 


6.3.1 MapReduce 


从 计算 模式 看 ,MapReduce 本 质 上 是 一 种 面向 大 数据 的 批 处 理 计算 模式 。MapReduce 
是 Google 公司 提出 的 一 种 用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 行 运 算 的 编程 模型 。 它 源 自 
函数 式 编程 理念 ,模型 中 的 概念 “Map( 映 射 )” 和 “Reduce( 归 纳 )” 都 是 从 函数 式 编程 语言 借 
来 的 ,当前 的 软件 实现 是 指定 一 个 map( 映 射 ) 函 数 , 用 来 把 一 组 键 值 对 映射 成 一 组 新 的 键 值 
对 ,指定 并 发 的 Reduce( 归 纳 ) 函数 ,用 来 保证 所 有 映射 的 键 值 对 中 的 每 一 个 共享 相同 的 
键 组 。 

MapReduce 的 运行 模型 如 图 6-7 所 示 。 图 中 及 个 Map EA m 个 Reduce 操作 。 
简单 地 说 ,一 个 map 函数 就 是 对 一 部 分 原始 数据 进行 指定 的 操作 。 每 个 Map 操作 都 针对 
不 同 的 原始 数据 ,因此 ,Map 与 Map 之 间 是 互相 独立 的 ,这 就 使 得 它们 可 以 充分 并 行 化 。 一 
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个 Reduce 操作 就 是 对 每 个 Map 所 产生 的 一 部 分 中 间 结 果 进 行 合并 操作 ,每 个 Reduce 所 处 
理 的 Map 中 间 结 果 是 互 不 交叉 的 ,所 有 Reduce 产生 的 最 终结 果 经 过 简单 连接 就 形成 了 完 
整 的 结果 集 , 因 此 ,Reduce 也 可 以 在 并 行 环境 下 执行 。 


reduce() 


3 
reduce) 


A 
Data Split Map Reduce 


图 6-7 MapReduce 的 运行 模型 


1. MapReduce 经 典 实 例 

WordCount 是 用 于 展示 MapReduce 功能 的 经 典 例子 , 它 在 一 个 巨大 的 文档 集中 统计 
各 个 单词 的 出 现 次 数 。 输 入 的 数据 集 被 分 割 成 比较 小 的 段 , 每 个 小 段 由 一 个 map 函数 来 处 
理 。map 函数 为 每 个 经 过 它 处 理 的 单词 生成 一 个 < key. value > 对 ,并 对 word 这 个 单词 生成 
< word.1 >, MapReduce 框架 把 所 有 相同 key 的 值 合 并 在 一 个 key/value 对 里 面 ,然后 触 
A Reduce 函数 针对 各 个 key 值 进行 处 理 , WordCount 中 是 把 特定 key 对 应 的 value # Ike 
来 ,形成 特定 单词 的 出 现 次 数 。 

2. 其 他 实例 

这 里 有 一 些 让 人 感 兴 趣 的 简单 程序 ,可 以 容易 地 用 MapReduce 计算 来 实现 。 

分 布 式 的 Grep(UNIX 工具 程序 ,可 做 文件 内 的 字符 串 查 找 ): 如 果 输入 行 匹配 给 定 的 
样式 ,map 函数 就 输出 这 一 行 。reduce 函数 就 是 把 中 间 数 据 复制 到 输出 。 

计算 URL 访问 频率 : map 函数 处 理 Web 页 面 请 求 的 记录 ,输出 (URL,1)。reduce FR 
数 把 相同 URL 的 value 都 加 起 来 ,产生 一 个 (URL ,记录 总 数 ) 的 对 。 

倒转 网 络 链接 图 : map 函数 为 每 个 链接 输出 (目标 , 源 ) 对 ,一 个 URL 叫 作 目标 ,包含 这 
个 URL 的 页 面 叫 作 源 。reduce 函数 根据 给 定 的 相关 目标 URL 连接 所 有 的 源 URL 形成 一 
个 列表 ,产生 (目标 , 源 列表 ) 对 。 每 个 主机 的 术语 向 量 : 一 个 术语 向 量 用 一 个 ( 词 ,频率 ) 列 
表 来 概述 出 现在 一 个 文档 或 一 个 文档 集中 的 最 重要 的 一 些 词 。map 函数 为 每 一 个 输入 文 
档 产 生 一 个 (主机 名 ,术语 向 量 ) 对 (主机 名 来 自 文档 的 URL). reduce 函数 接收 给 定 主 机 的 
所 有 文档 的 术语 向 量 。 它 把 这 些 术语 向 量 加 在 一 起 .丢弃 低频 的 术语 ,然后 产生 一 个 最 终 的 
(主机 名 ,术语 向 量 ) 对 。 

倒 排 索引 : map 函数 分 析 每 个 文档 ,然后 产生 一 个 ( 词 , 文 档 号 ) 对 的 序列 。reduce 函数 
接收 一 个 给 定 词 的 所 有 对 ,排序 相应 的 文档 ID, 并 且 产 生 一 个 ( 词 ,文档 ID 列表 ) 对 。 所 有 
的 输出 对 集 形成 一 个 简单 的 倒 排 索引 。 它 可 以 简单 地 增加 跟踪 词 位 置 的 计算 。 

分 布 式 排序 : map 函数 从 每 个 记录 提取 key, 并 且 产 生 一 个 (key,record) 对 。reduce PR 
数 不 改 变 任 何 的 对 。 

3. MapReduce 实现 原理 

根据 J. Dean 的 论文 ,中 间 结 果 的 key/value 对 是 先 写 入 到 本 地 文件 系统 然后 再 由 
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Reduce 任务 做 处 理 。Apache 的 另 一 个 MapReduce 实现 也 是 应 用 了 同样 的 架构 , 它 的 具体 
细节 与 Google 的 MapReduce 类 似 , 本 书 将 不 再 袭 述 。 下 面 详细 描述 Google 的 MapReduce 
实现 具体 细节 。 

MapReduce 执行 流程 : Map 调用 把 输入 数据 自动 分 割 成 M 片 并 分 布 到 多 台 机 器 上 ， 
输入 的 片 能 够 在 不 同 的 机 器 上 被 并 行 处 理 。Reduce 调用 则 通过 分 制 函数 分 割 中 间 key, M 
而 形成 R 片 (例如 ,hash(key)modR), 它 们 也 会 被 分 布 到 多 台 机 器 上 。 分 割 数 量 R 和 分 割 
函数 由 用 户 来 指定 。 图 6-8 显示 了 Google 公司 实现 的 MapReduce 操作 的 全 部 流程 。 当 用 
户 的 程序 调用 MapReduce 函数 的 时 候 , 将 发 生 下 面 的 一 系列 动作 (下 面 的 数字 和 图 中 的 数 
字 标 签 相对 应 ) 。 
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输入 文件 Map 状 态 中 间 文 件 Reduce 状 态 输出 文件 
(位 于 本 地 硬盘 ) 


图 6-8 MapReduce 执行 流程 


(1) 在 用 户 程序 里 的 MapReduce 库 首 先 分 割 输入 文件 成 M 个 片 , 每 个 片 的 大 小 一 般 
为 16 一 64MB( 用 户 可 以 通过 可 选 的 参数 来 控制 )。 然 后 在 机 群 中 开始 大 量 地 复制 程序 。 

(2) 这 些 程序 副本 中 的 一 个 是 master, 其 他 的 都 是 由 master 分 配 任务 的 worker。 有 
M 个 map {£4 All R 4% reduce 任务 将 被 分 配 。master 分 配 一 个 map 任务 或 reduce 任务 给 
一 个 空闲 的 worker。 

(3) 一 个 被 分 配 了 map 任务 的 worker 读 取 相关 输入 split 的 内 容 。 它 从 输入 数据 中 分 
析出 key/value 对 ,然后 把 key/value 对 传递 给 用 户 自 定义 的 map 函数 。 由 map 函数 产生 
的 中 间 key/value 对 被 缓存 在 内 存 中 。 

(4) 缓存 在 内 存 中 的 key/value 对 被 周期 性 地 写 入 本 地 磁盘 上 ,通过 分 割 函 数 把 它们 写 
入 尺 个 区 域 。 在 本 地 磁盘 上 的 缓存 对 的 位 置 被 传送 给 master. master 负责 把 这 些 位 置 传送 
给 reduceworker。 

(5) 当 一 个 reduceworker 得 到 master 的 位 置 通知 的 时 候 , 它 使 用 远程 过 程 调用 来 从 
mapworker 的 磁盘 上 读 取 缓存 的 数据 。 当 reduceworker 读 取 了 所 有 的 中 间 数 据 后 , 它 通 过 
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排序 使 具有 相同 key 的 内 容 聚 合 在 一 起 。 因 为 许多 不 同 的 key 映射 到 相同 的 reduce 任务 ， 
所 以 排序 是 必须 的 。 如 果 中 间 数 据 比 内 存 还 大 ,那么 还 需要 一 个 外 部 排序 。 

(6) reduceworker 迭代 排 过 序 的 中 间 数 据 , 对 于 遇 到 的 每 一 个 唯一 的 中 间 key, EAE 
key 和 相关 的 中 间 value 集 传递 给 用 户 自 定义 的 reduce 函数 。reduce 函数 的 输出 被 添加 到 
这 个 reduce 分 割 的 最 终 的 输出 文件 中 。 

当 所 有 的 map 和 reduce 任务 都 完成 了 ,master 唤醒 用 户 程序 。 在 这 个 时 候 , 用 户 程 序 
里 的 MapReduce 调用 返回 到 用 户 代 码 。 在 成 功 完成 之 后 ,MapReduce 执行 的 输出 存放 在 
R 个 输出 文件 中 (每 一 个 reduce 任务 产生 一 个 由 用 户 指定 名 字 的 文件 )。 一 般 , 用 户 不 需要 
合并 这 R 个 输出 文件 成 一 个 文件 一 一 他 们 经 常 把 这 些 文件 当 作 一 个 输入 传递 给 其 他 的 
MapReduce 调用 ,或 者 在 可 以 处 理 多 个 分 割 文件 的 分 布 式 应 用 中 使 用 它们 。 

(D Master 的 数据 结构 

master 保持 一 些 数据 结构 。 它 为 每 一 个 map 和 reduce 任务 存储 它们 的 状态 (空闲 、 工 
作 中 、 完 成 ) 和 worker 机 器 ( 非 空闲 任务 的 机 器 ) 的 标识 。master 就 像 一 个 管道 ,通过 它 , 中 
间 文 件 区 域 的 位 置 从 map 任务 传递 到 reduce 任务 。 因 此 ,对 于 每 个 完成 的 map 任务 ， 
master 存储 由 map 任务 产生 的 R 个 中 间 文 件 区 域 的 大 小 和 位 置 。 当 map 任务 完成 的 时 
候 , 位 置 和 大 小 的 更 新 信息 被 接收 。 这 些 信息 被 逐步 增加 地 传递 给 那些 正在 工作 的 reduce 
任务 。 

@ 容错 机 制 

因为 MapReduce 库 被 设计 用 来 使 用 成 百 上 千 的 机 器 以 帮助 处 理 非常 大 规模 的 数据 ,所 
以 这 个 库 必 须要 能 很 好 地 处 理 机 器 故障 。worker 故障 的 检测 方法 为 : master 周期 性 地 
ping 每 个 worker。 如 果 master 在 一 个 确定 的 时 间 段 内 没有 收 到 worker 返回 的 信息 ,那么 
它 将 把 这 个 worker 标记 成 失效 。 因 为 每 一 个 由 这 个 失效 的 worker 完成 的 map 任务 被 重 
新 设置 成 它 初始 的 空闲 状态 ,所 以 它 可 以 被 安排 给 其 他 的 worker。 同 样 , 每 一 个 在 失败 的 
worker 上 正在 运行 的 map 或 reduce 任务 ,也 被 重新 设置 成 空闲 状态 ,并 且 将 被 重新 调度 。 
在 一 个 失败 机 器 上 已 经 完成 的 map 任务 将 被 再 次 执行 ,因为 它 的 输出 存储 在 它 的 磁盘 上 ， 
所 以 不 可 访问 。 已 经 完成 的 reduce 任务 将 不 会 再 次 执行 ,因为 它 的 输出 存储 在 全 局 文件 系 
统 中 。 当 一 个 map 任务 首先 被 workerA 执行 之 后 ,又 被 B 执行 了 (因为 A 失效 了 ) ,重新 执 
行 这 个 情况 被 通知 给 所 有 执行 reduce 任务 的 worker。 任 何 还 没有 从 A 读数 据 的 reduce 任 
务 将 从 workerB 读 取 数据 。MapReduce 可 以 处 理 大 规模 worker 失败 的 情况 。 例 如 ,在 一 
个 MapReduce 操作 期 间 ,在 正在 运行 的 机 群 上 进行 网 络 维护 引起 80 台 机 器 在 几 分 钟 内 不 
可 访问 了 ,MapReducemaster 只 是 简单 地 再 次 执行 已 经 被 不 可 访问 的 worker 完成 的 工作 ， 
继续 执行 ,最终 完成 这 个 MapReduce 操作 。 

应 对 master 故障 ,可 以 很 容易 地 让 master 周期 地 写 入 上 面 描述 的 数据 结构 的 检查 点 。 
如 果 这 个 master 任务 失效 了 ,可 以 从 上 次 最 后 一 个 检查 点 开始 启动 男 一 个 master 进程 。 
然而 ,因为 只 有 一 个 master, 所 以 它 的 失败 是 比较 麻烦 的 。 因 此 我 们 现在 的 实现 是 ,如 果 
master 失败 ,就 中 止 MapReduce 计算 。 客 户 可 以 检查 这 个 状态 ,并 且 可 以 根据 需要 重新 执 
行 MapReduce 操作 。 对 于 在 错误 面前 的 处 理 机 制 , 当 用 户 提供 的 map 和 reduce 操作 对 它 
的 输出 值 是 确定 的 函数 时 ,我 们 的 分 布 式 实现 相同 的 输出 结果 。 
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我 们 依赖 对 map 和 reduce 任务 的 输出 进行 原子 提交 来 完成 这 个 性 质 。 每 个 工作 中 的 
任务 把 它 的 输出 写 到 私有 临时 文件 中 。 一 个 reduce 任务 产生 一 个 这 样 的 文件 ,而 一 个 map 
任务 产生 R 个 这 样 的 文件 (一 个 reduce 任务 对 应 一 个 文件 )。 当 一 个 map 任务 完成 的 时 
候 ,worker 发 送 一 个 消息 给 master, 在 这 个 消息 中 包含 这 R 个 临时 文件 的 名 字 。 如 果 
master 从 一 个 已 经 完成 的 map 任务 再 次 收 到 一 个 完成 的 消息 , 它 将 忽略 这 个 消息 。 否 则 ， 
它 在 master 的 数据 结构 里 记录 这 R 个 文件 的 名 字 。 当 一 个 reduce 任务 完成 的 时 候 ,这 个 
reduceworker 把 临时 文件 重 命名 成 最 终 的 输出 文件 。 如 果 相 同 的 reduce 任务 在 多 个 机 器 
上 执行 ,多 个 重 命名 调用 将 被 执行 ,并 产生 相同 的 输出 文件 。 我 们 依赖 由 底层 文件 系统 提供 
的 原子 重 命 名 操作 来 保证 ,最 终 的 文件 系统 状态 仅仅 包含 一 个 reduce 任务 产生 的 数据 。 我 
们 的 map 和 reduce 操作 大 部 分 都 是 确定 的 ,并 且 我 们 的 处 理 机 制 等 价 于 一 个 顺序 执行 的 这 
个 事实 ,使 得 程序 员 可 以 很 容易 地 理解 程序 的 行为 。 当 map 或 reduce 操作 是 不 确定 的 时 
修 , 我 们 提供 虽然 比较 弱 但 是 合理 的 处 理 机 制 。 当 在 一 个 非 确定 操作 的 前 面 ,一 个 reduce 
任务 R1 的 输出 等 价 于 一 个 非 确定 顺序 程序 执行 产生 的 输出 。 然 而 ,一 个 不 同 的 reduce ff 
务 R2 的 输出 也 许 符合 一 个 不 同 的 非 确定 顺序 程序 执行 产生 的 输出 。 考 虑 map 任务 M 和 
reduce 任务 R1,R2 的 情况 。 我 们 设 定 eCRi) 为 已 经 提交 的 Ri 的 执行 (有 且 仅 有 一 个 这 样 的 
执行 )。 这 个 比较 弱 的 语义 出 现 ,因为 e(R1) 也 许 已 经 读 取 了 由 M 的 执行 产生 的 输出 ,而 
e(R2) 也 许 已 经 读 取 了 由 M 的 不 同 执行 产生 的 输出 。 

@ 存储 位 置 

在 计算 机 环境 里 ,网 络 带宽 是 一 个 相当 缺乏 的 资源 。 我 们 利用 把 输入 数据 (由 GFS 管 
理 ) 存 储 在 机 器 的 本 地 磁盘 上 来 保存 网 络 带宽 。GFS 把 每 个 文件 分 成 一 些 64MB 的 块 , 然 
后 每 个 块 的 几 个 副本 (一 般 是 3 个 副本 ) 存 储 在 不 同 的 机 器 上 。MapReduce 的 master 考虑 
输入 文件 的 位 置信 息 , 并 且 努 力 在 一 个 包含 相关 输入 数据 的 机 器 上 安排 一 个 map 任务 。 如 
果 这 样 做 失败 了 , 它 尝 试 在 那个 任务 的 输入 数据 的 附近 安排 一 个 map 任务 (例如 ,分 配 到 一 个 
和 包含 输入 数据 块 在 一 个 switch 里 的 worker 机 器 上 执行 )。 当 运行 巨大 的 MapReduce 操作 在 
一 个 机 群 中 的 一 部 分 机 器 上 的 时 候 , 大 部 分 输入 数据 在 本 地 被 读 取 , 从 而 不 消耗 网 络 带宽 。 

@ 任务 粒度 

像 上 面 描述 的 那样 , 细 分 map 阶段 成 M 片 , reduce Br EJ RH. M Al R 应当 比 
worker 机 器 的 数量 大 许多 。 每 个 worker 执行 许多 不 同 的 工作 来 提高 动态 负载 均衡 ,也 可 
以 加 速 从 一 个 worker 失效 中 的 恢复 ,这 台 机 器 上 的 许多 已 经 完成 的 map 任务 可 以 被 分 配 
到 所 有 其 他 的 worker 机 器 上 。 在 实现 中 ,M 和 R 的 范围 是 有 大 小 限制 的 ,因为 master 必 
须 做 OOM 十 R) 次 调度 ,并 且 保 存 OM * R) 个 状态 在 内 存 中 。 此 因素 使 用 的 内 存 是 很 少 
的 ,在 OM * R) 个 状态 片 里 ,大 约 每 个 map 任务 /reduce 任务 对 使 用 1 字 节 的 数据 。 此 外 ， 
R 经 常 被 用 户 限 制 ,因为 每 一 个 reduce 任务 最 终 都 是 一 个 独立 的 输出 文件 。 实 际 上 ,我 们 
倾向 于 选择 M, 以 便 每 一 个 单独 的 任务 大 概 都 是 16 — 64 MB 的 输入 数据 (以 便 上 面 描述 的 
位 置 优化 是 最 有 效 的 ) ,我 们 把 R 设置 成 希望 使 用 的 worker 机 器 数量 的 小 倍数 。 经 常 在 
M 一 200000,R 一 5000 ,使 用 2000 台 worker 机 器 的 情况 下 ,执行 MapReduce 计算 。 

© 备用 任务 

一 个 落后 者 是 延长 MapReduce 操作 时 间 的 原因 之 一 : 一 个 机 器 花费 一 个 异乎 寻常 的 
长 时 间 来 完成 最 后 的 一 些 map 或 reduce 任务 中 的 一 个 。 有 很 多 原因 可 能 产生 落后 者 。 例 
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如 ,一 个 有 坏 磁 盘 的 机 器 经 常 发 生 可 以 纠正 的 错误 ,这 样 就 使 读 性 能 从 30MB/s 降低 到 
3MB/s。 机 群 调度 系统 也 许 已 经 安排 其 他 的 任务 在 这 个 机 器 上 ,由 于 计算 要 使 用 CPU、 内 
存 、 本 地 磁盘 、 网 络 带宽 的 原因 .引起 它 执行 MapReduce 代码 很 慢 。 我 们 最 近 遇 到 的 问题 
是 ,在 机 器 初始 化 时 的 Bug 引起 处 理 器 缓存 的 失效 : 在 一 台 被 影响 的 机 器 上 的 计算 性 能 有 
上 百倍 的 影响 。 有 一 个 一 般 的 机 制 来 减轻 这 个 落后 者 的 问题 。 当 一 个 MapReduce 操作 将 
要 完成 的 时 候 ,master 调度 备用 进程 来 执行 那些 剩 下 的 还 在 执行 的 任务 。 无 论 是 原来 的 还 
是 备用 的 执行 完成 了 ,工作 都 被 标记 成 完成 。 已 经 调整 了 这 个 机 制 ,通常 只 会 多 占用 几 个 百 
分 点 的 机 器 资源 。 发 现 这 可 以 显著 地 减少 完成 大 规模 MapReduce 操作 的 时 间 。 

4. MapReduce 的 优势 

(1) 移动 计算 而 不 是 移动 数据 ,避免 了 额外 的 网 络 负载 。 

(2) 任务 之 间 相 互 独立 ,让 局 部 故障 可 以 更 容易 处 理 , 如 果 是 单个 节点 的 故障 , 则 只 需 
要 重启 该 节点 任务 即 可 。 它 避免 了 故障 草 延 到 整个 集群 ,能 够 容忍 同步 中 的 错误 。 对 于 拖 
后 腿 的 任务 也 可 以 启动 备份 任务 加 快 任务 完成 。 

(3) 理想 状态 下 MapReduce 模型 是 可 线性 扩展 的 , 它 是 为 了 使 用 便宜 的 商业 机 器 而 设 
计 的 计算 模型 。 

(4) MapReduce 模型 结构 简单 ,终端 用 户 至 少 只 需 编 写 map 和 reduce 函数 。 

(5) 相对 于 其 他 分 布 式 模 型 , MapReduce 的 一 大 特点 是 其 平坦 的 集群 扩展 代价 曲线 。 
因 MapReduce 在 启动 作业 、 调 度 等 方面 的 管理 操作 的 时 间 成 本 相对 较 高 ,所 以 它 在 节点 有 
限 的 小 规模 集群 中 的 表现 并 不 十 分 突出 。 但 在 大 规模 集群 时 ,MapReduce 表现 非常 好 。 

5. MapReduce 的 劣势 

(1) MapReduce 模型 本 身 是 有 诸多 限制 的 ,例如 缺乏 一 个 用 于 同步 各 个 任务 的 中 心 。 

(2) 用 MapReduce 模型 来 实现 常见 的 数据 库 连接 操作 非常 麻烦 且 效 率 低下 ,因为 
MapReduce 模型 是 没有 索引 结构 的 ,通常 整个 数据 库 都 会 通过 map 和 reduce 函数 。 

(3) MapReduce 集群 管理 比较 麻烦 ,在 集群 中 进行 调试 ,部署 以 及 日 志 收 集 工 作 都 很 
困难 。 

(4) 单个 Master 节点 有 单 点 故障 的 可 能 性 且 可 能 会 限制 集群 的 扩展 性 。 

(5) 当中 间 结 果 必 须 保留 的 时 候 , 作 业 的 管理 并 不 简单 。 

(6) 对 于 集群 的 参数 配置 的 最 优 解 并 非 显然 .许多 参数 需要 有 丰富 的 应 用 经 验 才能 确定 。 


6.3.2 Spark 


Spark 由 加 州 大 学 伯克利 分 校 AMP 实验 室 开 发 ,可 用 来 构建 大 型 的 、 低 延迟 的 数据 分 
析 应 用 程序 。 本 质 上 ,Spark 是 一 种 面向 大 数据 处 理 的 分 布 式 内 存 计 算 模式 或 框架 。Spark 
启用 了 内 存 分 布 数据 集 , 除 了 能 够 提供 交互 式 查 询 外 , 它 还 可 以 优化 迭代 工作 负载 。Spark 
是 在 Scala 语言 中 实现 的 , 它 将 Scala 用 作 其 应 用 程序 框架 ,而 Scala 的 语言 特点 也 铸就 了 大 
部 分 Spark 的 成 功 。Spark 是 类 似 于 Hadoop MapReduce 的 通用 并 行 框架 ,但 在 迭代 计算 
上 比 MapReduce 性 能 更 优 ,现在 是 Apache 孵化 的 顶级 项 目 。 与 Hadoop 不 同 ,Spark 和 
Scala 能 够 紧密 集成 ,其 中 的 Scala 可 以 像 操作 本 地 集合 对 象 一 样 轻松 地 操作 分 布 式 数据 
集 。 尽 管 创建 Spark 是 为 了 支持 分 布 式 数据 集 上 的 迭代 作业 ,但 是 实际 上 它 是 对 Hadoop 
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的 补充 ,可 以 在 Hadoop 文件 系统 中 并 行 运行 。 通 过 名 为 Mesos 的 第 三 方 集群 框架 可 以 支 
持 此 行为 。 

虽然 Spark 与 Hadoop 有 相似 之 处 ,但 它 提供 了 具有 有 用 差异 的 一 个 新 的 集群 计算 框 
架 。 首 先 ,Spark 是 为 集群 计算 中 的 特定 类 型 的 工作 负载 而 设计 , 即 那些 在 并 行 操作 之 间 重 
用 工作 数据 集 ( 例 如 机 器 学 习 算 法 ) 的 工作 负载 。 为 了 优化 这 些 类 型 的 工作 负载 ,Spark 引 
进 了 内 存 集群 计算 的 概念 ,可 在 内 存 集群 计算 中 将 数据 集 缓存 在 内 存 中 ,以 缩短 访问 延迟 。 

Spark 还 引进 了 名 为 弹性 分 布 式 数据 集 (RDD) 的 抽象 。RDD 是 分 布 在 一 组 节点 中 的 
只 读 对 象 集合 。 这 些 集合 是 弹性 的 ,如 果 数 据 集 一 部 分 丢失 , 则 可 以 对 它们 进行 重建 。 重 建 
部 分 数据 集 的 过 程 依赖 于 容错 机 制 , 该 机 制 可 以 维护 “血统 ”( 即 允许 基于 数据 衍生 过 程 重建 
部 分 数据 集 的 信息 )。RDD 被 表示 为 一 个 Scala 对 象 ,并 且 可 以 从 文件 中 创建 它 ; 一 个 并 行 
化 的 切片 (遍布 于 节点 之 间 ); 另 一 个 RDD 的 转换 形式 ; 并 且 最 终 会 彻底 改变 现 有 RDD 的 
持久 性 ,例如 请 求 缓存 在 内 存 中 。 

Spark 中 的 应 用 程序 称 为 驱动 程序 ,这 些 驱 动 程序 可 实现 在 单一 节点 上 执行 的 操作 或 
在 一 组 节点 上 并 行 执行 的 操作 。 与 Hadoop 类 似 , Spark 支持 单 节点 集群 或 多 节点 集群 。 
对 于 多 节点 操作 ,Spark 依赖 于 Mesos 集群 管理 器 。Mesos 为 分 布 式 应 用 程序 的 资源 共享 
和 隔离 提供 了 一 个 有 效 平 台 。 该 设置 允许 Spark 与 Hadoop 共存 于 节点 的 一 个 共享 池 中 。 

1. Spark 生态 环境 

Spark 有 一 套 生 态 环境 ,而 这 套 蓝图 正 是 AMP 实验 室 正在 绘制 的 。Spark 在 整个 生态 
系统 中 的 地 位 如 图 6-9 所 示 , 它 是 基于 Tachyon 的 。 而 对 底层 的 Mesos, 类 似 于 YARN 调 
度 框架 ,在 其 上 也 可 以 搭载 如 Spark, Hadoop 等 环境 。Shark 类 似 Hadoop 里 的 Hive, 而 其 
性 能 比 Hive 要 快 成 百 上 千 信 ,不 过 Hadoop 注重 的 不 是 最 快 的 速度 ,而 是 廉价 集群 上 离线 
批量 的 计算 能 力 。 此 外 ,图 6-9 中 还 有 图 数据 库 GraphX、 流 处 理 组 件 Spark Streaming 以 及 
machine learning 的 ML Base。 也 就 是 说 ,Spark 这 套 生态 环境 把 大 数据 这 块 领域 的 数据 流 
计算 和 交互 式 计算 都 包含 了 ,而 另外 一 块 批 处 理 计算 应 该 由 Hadoop 占据 ,同时 Spark 又 是 
可 以 同 HDFS 交互 取得 里 面 的 数据 文件 的 。 还 有 ,Spark 的 和 迭代、 内存 运算 能 力 以 及 交互 式 
计算 ,都 为 数据 挖掘 、 机 器 学 习 提供 了 很 必要 的 辅助 。 

2. Spark 总 体 架构 

Spark 总 体 架 构 如 图 6-10 所 示 , 其 中 各 组 件 介绍 如 下 : 

Driver Program: 运行 main 函数 并 且 新 建 SparkContext 的 程序 。 

SparkContext: Spark 程序 的 入 口 ,负责 调度 各 个 运算 资源 ,协调 各 个 Worker Node 上 
的 Executor。 

Application: 基于 Spark 的 用 户 程 序 , 包 含 了 driver 程序 和 集群 上 的 Executor。 

Cluster Manager: 集群 的 资源 管理 器 (例如 Standalone、Mesos、Yarn)。 

Worker Node: 集群 中 任何 可 以 运行 应 用 代码 的 节点 。 

Executor: 是 在 一 个 Worker Node 上 为 某 应 用 启动 的 一 个 进程 ,该 进程 负责 运行 任务 ， 
并 且 负 责 将 数据 存在 内 存 或 者 磁盘 上 。 每 个 应 用 都 有 各 自 独立 的 Executors, 

Task: 被 送 到 某 个 Executor 上 的 工作 单元 。 

在 Spark 集群 中 ,有 两 个 重要 的 部 件 , 即 Driver 和 Worker. Driver 程序 是 应 用 逮 辑 执 


265 


云 计 算 与 大 数据 技术 理论 及 应 用 


Fast memory-optimized execution engine(Python/Java/Scala APIs) 


Tachyon(alpha)In-memory file system 


Hadoop Distributed File System(HDFS) 


B Supported Release E In Development B Related External Project 


图 6-9 Spark 生态 环境 
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图 6-10 Spark 总 体 架构 


行 的 起 点 ,类似 于 Hadoop 架构 中 的 JobTracker, 而 多 个 worker 用 来 对 数据 进行 并 行 处 理 ， 
相当 于 Hadoop 的 TaskTracker。 尽 管 不 是 强制 的 ,但 数据 通常 是 与 worker 搭配 ,并 在 集 
群 内 的 同一 套 机 器 中 进行 分 区 。 在 执行 阶段 ,driver 程序 会 将 代码 或 scala 闭 包 传递 给 
worker 机 器 ,同时 相应 分 区 的 数据 将 进行 处 理 。 数 据 会 经 历 转 换 的 各 个 阶段 ,同时 尽 可 能 
地 保持 在 同一 分 区 之 内 。 执 行 结 束 之 后 ,worker 会 将 结果 返回 到 driver 程序 。 一 个 用 户 程 
序 是 如 何 从 提交 到 最 终 在 集群 上 执行 : DSparkContext 连接 到 ClusterManager, 并 且 向 
ClusterManager 申请 Executors; @ SparkContext 向 Executors 发 送 Application code; 
@SparkContext 向 Executors 发 送 tasks. Executor 会 执行 被 分 配 的 tasks。 运 行 时 的 状态 
如 图 6-11 所 示 。 

3. 弹性 分 布 式 数据 集 RDD 

HER Spark 就 不 得 不 提 Spark 的 核心 数据 结构 弹性 分 布 式 数据 集 (RDD)。 它 是 逻辑 集 
中 的 实体 ,但 在 集群 中 的 多 台 机 器 上 进行 了 分 区 。 通 过 对 多 台 机 器 上 不 同 RDD 联合 分 区 
的 控制 ,就 能 够 减少 机 器 之 间 的 数据 混合 (data shuffling), Spark 提供 了 一 个 “partition-by” 运 
算 符 ,能 够 通过 集群 中 多 台 机 器 之 间 对 原始 RDD 进行 数据 再 分 配 来 创建 一 个 新 的 RDD。 

RDD 可 以 随意 在 RAM 中 进行 缓存 ,因此 它 提 供 了 更 快速 的 数据 访问 。 目 前 缓存 的 粒 
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度 处 在 RDD 级 别 , 因 此 只 能 是 全 部 RDD 被 缓存 。 在 集群 中 有 足够 的 内 存 时 ,Spark 会 根据 
LRU 驱逐 算法 将 RDD 进行 缓存 。 

RDD 提供 了 一 个 抽象 的 数据 架构 ,我 们 不 必 担 心底 层 数据 的 分 布 式 特性 ,而 应 用 逻辑 
可 以 表达 为 一 系列 转换 处 理 。 通 常 应 用 逻辑 是 以 一 系列 Transformation 和 Action 来 表达 
的 。 在 执行 Transformation 中 原始 RDD 是 不 变 而 不 灭 的 ,Transformation 后 产生 的 是 新 
的 RDD。 前 者 在 RDD 之 间 指 定 处 理 的 相互 依赖 关系 有 向 无 环 图 (DAG) ,后 者 指定 输出 的 
形式 。 调 度 程序 通过 拓扑 排序 来 决定 DAG 执行 的 顺序 ,追踪 最 源头 的 节点 或 者 代表 缓存 
RDD 的 节点 。 

用 户 通过 选择 Transformation 的 类 型 并 定义 Transformation 中 的 函数 来 控制 RDD 之 
间 的 转换 关系 。 当 用 户 调用 不 同类 型 的 Action 操作 来 把 任务 以 自己 需要 的 形式 输出 时 ， 
Transformation 在 定义 时 并 没有 立刻 被 执行 ,而 是 等 到 第 一 个 Action 操作 到 来 时 ,再 根据 
Transformation 生成 各 代 RDD。 最 后 由 RDD 生成 最 终 的 输出 。 

4. RDD 依赖 的 类 型 

在 RDD 依赖 关系 有 向 无 环 图 中 ,两 代 RDD 之 间 的 关系 由 Transformation 来 确定 , 根 
Hi Transformation 的 类 型 ,生成 的 依赖 关系 有 两 种 形式 : 宽 依 赖 与 窗 依 赖 (Narrow 
dependency. Wide dependency) 。 

Narrow dependency 是 指 父 RDD 的 每 一 个 分 区 最 多 被 一 个 子 RDD 的 分 区 所 用 ,表现 
为 一 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 或 多 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 
的 分 区 。 也 就 是 说 ,一 个 父 RDD 的 一 个 分 区 不 可 能 对 应 一 个 子 RDD 的 多 个 分 区 。Narrow 
dependency 的 RDD 可 以 通过 相同 的 键 进行 联合 分 区 ,整个 操作 都 可 以 在 一 台 机 器 上 进行 ， 
不 会 造成 网 络 之 间 的 数据 混合 。 

Wide dependency 是 指 子 RDD 的 分 区 依赖 于 父 RDD 的 多 个 分 区 或 所 有 分 区 ,也 就 是 
说 存在 一 个 父 RDD 的 一 个 分 区 对 应 一 个 子 RDD 的 多 个 分 区 。Wide dependency 的 RDD 
就 会 涉及 数据 混合 。 调 度 程序 会 检查 依赖 性 的 类 型 ,将 Narrow dependency 的 RDD 划 到 一 
组 处 理 当 中 , 即 stage, Wide dependency 在 一 个 执行 中 会 跨越 连续 的 stage, 同 时 需要 显 式 
指定 多 个 子 RDD 的 分 区 。 

5. RDD 任务 生成 模式 

如 图 6-12 所 示 ,一 个 小 方 框 代 表 的 是 一 个 RDD 的 Partition, JLA Partition 合成 一 个 
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RDD。 图 中 箭头 代表 了 RDD 之 间 的 关系 。 当 一 个 Action 操作 被 提交 时 ,依赖 关系 DAG 
会 根据 宽 依赖 关系 被 切 分 成 各 个 Stage。 任 务 调度 的 时 候 由 与 Action 直接 联系 的 Stage JF 
始 , 递 归 地 向 前 检查 RDD 是 否 存 在 ,车 不 存在 , 则 检查 父 RDD 是 否 存 在 ; 若 父 RDD ff f£. 
则 生成 一 个 RDD 并 提交 任务 。 如 果 直 到 最 初 的 一 个 RDD 都 不 存在 , 则 必须 将 持久 化 存储 
器 (HDFS 等 ) 中 的 文件 ETL 转换 为 内 存 中 的 RDD。 
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图 6-12 Spark 任务 生成 模式 


6. Spark 迭代 性 能 远 超 Hadoop 的 原因 

(1) 如 图 6-13 所 示 , 在 复杂 的 大 数据 处 理 过 程 中 ,和 迭代 计算 是 非常 常见 的 。Hadoop 对 
于 和 迭代 计算 没有 优化 策略 ,在 每 一 次 迭代 的 过 程 中 ,中 间 结 果 必 须 写 入 到 磁盘 中 ,并 且 在 写 
一 个 迭代 时 必须 将 ETL 读 取 到 内 存 中 再 进行 处 理 。 而 Spark 中 ,数据 只 有 在 第 一 个 迭代 的 
过 程 把 数据 反 序列 化 ETL 到 内 存 中 ,之 后 的 所 有 和 迭代 的 中 间 结 果 都 保存 在 内 存 中 , 极 大 地 
减少 了 IO 操作 次 数 ,其 在 迭代 计算 中 的 效率 自然 比 Hadoop 高 出 许多 。 
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6-13 Spark 与 Hadoop 迭代 过 程 比较 
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(2) 在 实际 操作 中 多 次 读 取 同 一 块 数据 并 作 不 同 的 计算 也 是 比较 常见 的 。Hadoop 在 
这 一 方面 并 没有 做 优化 ,每 一 次 查询 操作 都 必须 从 HDFS 上 读 取 数据 ,导致 更 多 的 硬盘 开 
销 。 而 Spark 只 有 在 第 一 次 调用 HDFS 数据 的 时 候 反 序 列 化 读 取 到 内 存 中 ,以 后 的 每 次 针 
对 这 一 数据 的 查询 都 直接 通过 内 存 来 读 取 。 

7. Spark 的 优 缺 点 

优点 : 

CD 相对 于 Hadoop 来 说 ,Spark 的 执行 效率 更 高 , 当 整 个 集群 内 存 足 够 保存 查询 过 程 
中 的 所 有 RDD 时 ,Spark 的 查询 效率 可 以 超过 Hadoop 50 一 100 倍 。 基 本 来 说 这 样 的 低 延 
述 在 大 数据 量 处 理 中 可 以 认为 是 实时 给 予 结果 。 特 别 是 针对 重复 使 用 同一 块 数据 或 者 迭代 
使 用 不 同 的 数据 的 过 程 ,Spark 更 是 远 胜 于 Hadoop。 

(2) 由 于 Spark 能 够 实时 地 给 予 用 户 查询 结果 , 它 能 够 做 到 与 用 户 互动 式 的 查询 ,不 需 
要 用 户 长 时 间 等 待 。 而 Hadoop 的 作业 长 时 延 导致 其 处 理 只 能 是 批 处 理 , 用 户 批量 输入 任 
务 然后 等 待 任务 结果 。 

(3) 快速 的 故障 恢复 。RDD 的 DAG 4 Spark 具有 故障 恢复 的 能 力 。 当 发 生 节 点 故障 
的 时 候 ,Spark 会 在 其 他 的 节点 上 根据 DAG 重新 构建 故障 节点 的 RDD。 由 于 RDD 的 依赖 
机 制 中 的 窄 依赖 只 在 单个 节点 上 运行 ,除了 生成 初始 RDD 之 外 只 在 内 存 中 进行 ,因此 处 理 
速度 很 快 。 宽 依赖 虽然 需要 网 络 通信 但 是 其 计算 也 是 全 部 在 内 存 中 ,因此 RDD 的 故障 恢 
复 要 比 Hadoop 快 。 

(4) 在 Spark 中 ,一 个 Action 生成 一 个 作业 ,而 在 不 同 的 Action 之 间 ,RDD 是 可 以 共 
享 的 。 上 一 个 Action 使 用 或 生成 的 RDD 可 由 下 一 个 Action 调用 ,因此 实现 作业 之 间 的 数 
据 共 享 。 对 于 Hadoop 来 说 ,其 中 间 结 果 是 保存 在 Mapper 的 本 地 文件 系统 中 的 ,无 法 让 中 
间 结 果 在 作业 之 间 共 享 。 而 作业 结果 又 是 保存 在 HDFS 上 ,下 一 个 作业 要 读 取 的 时 候 还 要 
重新 做 ETL, 

缺点 : 

(1) Spark 的 架构 借鉴 了 Hadoop 的 Master-Slave 架构 。 因 此 它 也 会 有 与 Hadoop 相 
同 的 Master 节点 性 能 瓶颈 问题 。 对 于 多 用 户 多 作业 的 集群 来 说 ,Spark 的 Driver 很 可 能 形 
成 整个 集群 性 能 的 瓶颈 。 

(2) Spark 官方 论文 中 也 承认 了 Spark 也 有 不 适合 做 的 事情 。Spark 不 适用 对 于 共享 
状态 .数据 的 异步 更 新 操作 。 因 为 Spark 核心 数据 结构 RDD 的 不 可 变性 ,导致 在 进行 每 一 
个 小 的 异步 更 新 时 会 生成 一 个 RDD, 整 个 系统 会 产生 大 量 重复 数据 ,导致 系统 处 理 效率 低 
TF. Spark 不 是 不 能 处 理 这 个 类 型 的 数据 ,而 是 在 处 理 时 效率 低下 。 而 这 个 异步 更 新 共享 
状态 来 源 于 增 量 式 网 络 怜 虫 系统 的 数据 库 。 

8. Spark 集群 简单 搭建 

简单 的 单机 部 署 步骤 如 下 : 

CD 安装 JDK 和 Scala 并 配置 环境 变量 。Scala 的 安装 配置 与 JDK 相似 ,这 里 不 再 
BR. 

(2) FA Spark 安装 包 解 压 到 任意 目录 下 (这 里 使 用 /opt/spark/) 。 

(3) 配置 Spark 环境 变量 : 
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在 Spark 的 根 目 录 执 行 : 


cp conf/spark — env. sh. template conf/spark — env. sh 


目前 Spark 环境 不 依赖 Hadoop ,也 就 不 需要 Mesos, 所 以 配置 的 内 容 很 少 。 最 简单 的 


配置 信息 有 : 


export SCALA HOME = /opt/scala — 2.10.3 
export JAVA HOME = /usr/java/jdkl.7.0 17 


下 面 与 官网 的 “Quick Start” it fH fa]. 
(4) built Spark: 
在 Spark 的 根 目录 下 运行 : 


sbt/sbt assembly 
命令 完成 后 ,就 会 下 载 Spark 部 署 所 需 的 依赖 包 , 效 果 如 下 : 


[root@centos6 - vb spark - 0.9.0 — incubating]#  ./sbt/sbt assembly 
Attempting to fetch sbt 
HHHHHH HHH HH HHH HER HHH HHH HHH HH HHH HHH HE C XS 
Launching sbt from sbt/sbt - launch - 0.12. 4. jar 
Getting net. java. dev. jna jna 3.2.3... 
downloading http://repol.maven. org/maven2/net/ java/dev/ jna/ jna/3. 2. 3/jna - 3.2.3. jar ... 
[SUCCESSFUL ]net. java. dev. jna # jna;3.2.3! jna. jar (20629ms) 
: retrieving :: org.scala- sbt # boot - jna 
confs: [default] 
1 artifacts copied. 0 already retrieved (838kB/44ms) 
Getting org.scala- sbt sbt 0.12.4 ... 
downloading http://repo. typesafe. com/typesafe/ivy — releases/org. scala — sbt/sbt/0. 12. 4/ 
jars/sbt. jar ... 
[SUCCESSFUL Jorg. scala - sbt # sbt:0. 12.4! sbt. jar (2381ms) 
downloading http://repo. typesafe. com/typesafe/ivy — releases/org. scala — sbt/main/0. 12. 4/ 
jars/nain. jar... 
[SUCCESSFUL Jorg. scala - sbt# main;0.12.4!main. jar (19743ms) 
downloading http://repo. typesafe. com/typesafe/ivy — releases/org. scala - sbt/compiler — 
interface/0. 12. 4/jars/compiler- interface - bin. jar... 
[SUCCESSFUL Jorg. scala - sbt # compiler - interface;0.12.4! compiler - interface - bin. 
jar (3265ns) 
downloading http://repo. typesafe. com/typesafe/ivy — releases/org. scala — sbt/compiler — 
interface/0.12.4/jars/compiler- interface - src. jar... 
[SUCCESSFUL ]org.scala- sbt # compiler - interface;0.12.4! compiler - interface - src. 
jar (2180ns) 
downloading http://repo. typesafe. com/typesafe/ivy - releases/org. scala — sbt/precompiler — 
2.8.2/0.12.4 


编译 后 的 结果 为 : 


[warn] Strategy 'first' was applied to 241 files 
[info] Checking every * .class/* . jar file's SHA- 1. 
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4 
nr 


[info] Assembly up to date: /opt/spark/spark — 0.9.0 — incubating/assembly/target/scala - 2.10/ 
spark - assembly - 0.9.0 — incubating - hadoop1.0.4. jar 

[success] Total time:156 s,completed Feb 28,2014 6:28:13 PM 

[root@centos6 - vb spark - 0.9.0 — incubating] + 


编译 后 的 jar 文件 在 : spark-0. 9. O-incubating/assembly/target/scala-2. X/spark- 
assembly-0. 9. 0-incubating-hadoopl. 0. 4. jar( 在 Eclipsevs 创建 Spark 应 用 时 ,需要 把 这 个 
jar 文件 添加 到 Build Path) 。 

(5) 通过 >[bin]#. /spark-shell 命令 可 以 进入 的 是 Scala 解释 器 环境 。 在 解释 器 环境 
下 (Spark 交互 模式 ) 测 试 Spark. fii 0] MI Spark 是 否 正常 运行 。 


scala» Var data = Array(1,2,3,4,5,6) 
data: Array[Int] - Array(1,2,3,4,5,6) 


scala» val distData = sc.parallelize(data) 
distData: org. apache. spark. rdd. RDD[ Int] = ParallelCollectionRDD[0] at parallelize at « cor 


scala» distData.reduce( +_) 

14/02/28 18:15:54 INFO SparkContext: Starting job: reduce at < console?:17 
14/02/28 18:15:54 INFO DAGScheduler: Got job 0 (reduce at < console»:17) with 1 
output partitions (allowLccal = false) 

14/02/28 18:15:54 INFO DAGScheduler: Final stage: Stage 0 (reduce at « console»:17) 
14/02/28 18:15:54 INFO DAGScheduler: Parents of final stage: List() 

14/02/28 18:15:54 INFO DAGScheduler: Missing parents: List() 

14/02/28 18:15:54 INFO DAGScheduler: Submitting Stage 0 

(ParallelcollectionRDD[0] at parallelize at <console>:14), which has no missing parents 
14/02/28 18:15:55 INFO DAGScheduler: Submitting 1 missing tasks from Stage 0 
(ParallelCollectionRDD[0] at parallelize at <console>:14) 

14/02/28 18:15:55 INFO TaskSchedulerImpl: Adding task set 0.0 with 1 tasks 
14/02/28 18:16:00 INFO TaskSetManager: Starting task 0.0:0 as TID O 

on executor localhost: localhost (PROCESS LOCAL) 

14/02/28 18:16:00 INFO TaskSetManager: Serialized task 0.0:0 as 1077 bytes in 88 ms 
14/02/28 18:16:01 INFO Executor: Running task ID 0 

14/02/28 18:16:02 INFO Executor: Serialized size of result for 0 is 641 

14/02/28 18:16:02 INFO Executor: Sending result for 0 directly to driver 

14/02/28 18:16:02 INFO Executor: Finished task ID 0 

14/02/28 18:16:02 INFO TaskSetManager: Finished TID 0 in 6049 

ms on localhost (progress: 0/1) 

14/02/28 18:16:02 INFO DAGScheduler: Completed ResultTask(0,0) 

14/02/28 18:16:02 INFO DAGScheduler: Stage 0 (reduce at <console>:17) finished in 6.167s 


14/02/28 18:16:02 INFO TaskSchedulerImpl: Remove TaskSet 0.0 from pool 

14/02/28 18:16:02 

INFO SparkContext: Job finished: reduce at < console >:17, took 7.928379191 s 

res0: Int = 21 </console></console></console></console></console></console></console></cor 


至 此 ,Spark 单机 部 署 搭建 成 功 。 

关于 集群 部 署 的 内 容 如 下 。 

多 个 集群 的 全 分 布 部 署 也 很 简单 .只 需 像 Hadoop 配置 过 程 一 样 ,主要 步骤 为 : DEK 
个 节点 安装 JDK Scala 并 配置 环境 变量 ; @ 各 个 节点 配置 同一 个 账户 的 免 密码 登录 ; @ 复 
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iil Spark 文件 夹 到 各 个 节点 的 相同 目录 ; 四 在 conf/slaves 文件 中 添加 各 个 节点 的 主机 名 ; 
GE Spark 的 sbin 目录 运行 . /start-all. sh 就 可 以 启动 集群 。 

当然 这 里 启动 的 集群 只 是 最 简 配 置 下 的 基于 Hadoop 1. X 集群 ,如 果 需 要 配置 高 可 用 
性 、 高 性 能 的 集群 仍 需 参 考官 方 配置 文档 。 


6.3.3 流 式 计算 


Spark 流 式 计算 是 对 流 数据 进行 实时 分 析 计 算 的 一 种 技术 。 它 对 数据 处 理 包 括 三 个 阶 
段 ,数据 的 实时 采集 、 实 时 计算 与 实时 查询 。 数 据 的 实时 采集 系统 如 Hadoop 的 Chukwa、 
Facebook 的 Scribe 等 可 以 满足 数 百 兆 每 秒 的 采集 和 传输 需求 。 实 时 计算 是 接收 数据 采集 
系统 持续 不 断 的 实时 数据 流 , 分 析 和 提取 数据 信息 ,并 得 出 结果 。 最 后 ,由 实时 查询 系统 提 
供 查询 、 展 示 结 果 。 

1. 流 式 数据 

流 式 大 数据 是 随 着 时 间 而 无 限 增加 的 数据 序列 ,简称 为 流 数据 。 与 传统 的 静态 数据 相 
比 ,这 些 数据 具有 鲜明 的 流 式 特征 : 

(1) 流 数据 的 数据 量 是 庞大 的 , 且 随 着 时 间 的 增加 ,数据 规模 持续 无 限 扩 大 ,无 法 掌握 
数据 的 全 貌 ,是 无 穷 的 数据 序列 。 

(2) 流 数 据 具 有 时 效 性 , 延 时 过 长 会 使 其 丧失 价值 ,因此 需要 保证 对 数据 的 实时 更 新 、 
处 理 和 反馈 ,数据 的 实时 性 要 求 高 。 

(3) 流 数 据 通常 是 由 多 个 数据 源 持续 形成 的 ,不 同 数据 源 的 产生 和 传输 速率 不 同 , 因 
此 ,数据 具有 突 发 性 ,是 不 断 变 化 的 ,数据 的 顺序 也 是 随机 的 。 

(4) 流 数据 的 处 理 往往 是 单 次 处 理 , 且 与 数据 元 素 流入 顺序 有 关 。 若 非 专门 存储 ,不 能 
多 次 ,随机 访问 这 些 数 据 元 素 。 

很 明显 ,根据 流 数据 的 数据 特征 ,我 们 需要 计算 架构 是 可 靠 的 ,能 够 处 理 无 限 流 数据 ; 
是 延 时 短 的 ,能 够 实时 处 理 流 数据 ,把 握 流 数据 的 价值 ; 是 有 良好 伸缩 性 的 ,能 够 根据 数据 
量 的 突 发 变化 快速 扩展 或 回收 计算 资源 。 

通常 ,处 理 海量 数据 有 两 种 计算 模式 : 批量 计算 和 流 式 计算 。 它 们 的 特点 比较 如 表 6-8 
所 示 。 

表 6-8 计算 模式 对 比 


特 m 批量 计算 流 式 计算 
数据 类 型 静态 离线 数据 实时 动态 数据 

数据 规模 数据 的 有 限 集合 无 限 扩大 的 数据 集合 
数据 存储 硬盘 无 须 存储 

存储 空间 大 小 

实时 性 低 高 

准确 性 高 低 

持久 性 高 低 


相 比 之 下 ,批量 计算 是 先 将 数据 存储 到 硬盘 中 ,进行 数据 积累 后 再 处 理 硬盘 中 的 数据 ， 
需要 的 存储 空间 较 大 , 且 由 于 集中 处 理 ,对 计算 资源 的 利用 率 较 低 ,但 对 数据 的 准确 性 和 持 
久 性 要 求 较 高 。 流 式 计 算是 直接 在 内 存 中 处 理 数据 ,不 需要 存储 至 硬盘 中 ,处 理 的 速度 和 实 
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时 性 相对 较 高 。 两 种 计算 模式 的 处 理 过 程 如 图 6-14 和 图 6-15 所 示 。 显 然 , 流 式 计算 能 更 
好 地 处 理 流 数 据 。 


数据 处 理 
数据 存储 。 数据 处 理 
内 存 
硬盘 数据 存储 
图 6-14 批量 计算 模式 图 6-15 流 式 计算 模式 


2. 流 式 计算 系统 

流 式 计 算是 对 流 式 数据 进行 实时 分 析 计 算 的 一 种 技术 。 它 能 很 好 地 满足 流 数据 处 理 的 
实时 性 和 可 靠 性 的 要 求 ,因此 ,已 经 有 许多 流 式 计算 系统 投入 使 用 。 目 前 ,比较 具有 代表 性 
的 大 数据 流 式 计 算 系统 实例 有 Spark Streaming 系统 .Storm 系统 、S4 系统 和 Kafka 系统 。 
其 中 ,Spark Streaming 系统 ,Storm 系统 和 Kafka 系统 采用 的 是 有 中 心 的 主 从 式 架构 ,S4 
系统 采用 的 是 去 中 心 化 的 对 等 式 架 构 。 

1) 系统 架构 

CO 主 从 式 架 构 : 如 图 6-16 所 示 , 系 统 包括 一 个 主 节点 与 多 个 从 节点 ,各 个 从 节点 之 间 
没有 数据 交换 。 主 节点 负责 分 配 系统 资源 和 任务 ,同时 ,完成 系统 容错 、 负 载 均 衡 等 工作 ; 
从 节点 负责 完成 主 节点 分 配 的 任务 ,每 个 从 节点 受 主 节点 控制 。 

(2) 对 等 式 架构 : 如 图 6-17 所 示 ,系统 中 每 个 节点 是 对 等 的 ,节点 的 功能 相同 ,对 资源 
的 使 用 权限 也 相同 ,能够 更 好 地 实现 负载 均衡 。 对 等 架构 有 良好 的 伸缩 性 ,能 够 更 好 地 应 对 
流 数据 的 突 发 性 。 另 外 , 当 部 分 节点 失效 时 ,对 其 他 节点 的 影响 很 小 ,系统 的 容错 性 较 强 。 


图 6-16 主 从 式 架构 图 6-17 对 等 式 架构 


2) 应 用 场景 

大 数据 流 式 计算 的 应 用 场景 主要 有 人 金融 银行 业 、 互 联网 、 物 联网 等 三 个 典型 领域 的 
应 用 : 
(1) 金融 银行 业 。 
金融 银行 业 的 日 常 运营 业务 有 大 量 数据 ,不 同 银行 ,不同 部 门 的 内 部 的 流动 数据 规模 也 
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很 大 , 且 数 据 结 构 各 不 相同 。 在 风险 管理 ,营销 管理 和 商业 智能 方面 , 流 式 计 算 能 够 转换 不 
同 结构 的 数据 项 ,提取 数据 特征 ,实现 数据 流 的 快速 实时 处 理 , 实 现 系统 的 监控 和 优化 。 

(2) 互联 网 。 

互联 网 上 每 天 都 有 大 量 的 数据 流动 ,它们 以 文字 、 图 片 .音频 等 形式 存在 。 互 联网 企业 
通过 分 析 用 户 的 查询 历史 、 浏 览 历史 、 地 理 位 置 等 信息 ,提供 用 户 偏好 的 新 闻 、 广 告 等 信息 ， 
提升 用 户 体验 ,获得 单 击 付费 的 广告 盘 利 。 它 们 对 系统 的 实时 性 吞吐 量 的 要 求 很 高 。 

(3) 物 联网 。 

在 物 联网 领域 ,传感器 产生 庞大 的 数据 。 电 力 ,交通 、 环 境 等 行业 都 需要 传感器 采集 大 
量 的 数据 以 实现 对 整个 系统 的 监控 和 决策 分 析 。 而 传感器 的 数量 众多 、 种 类 各 异 ,采集 的 数 
据 的 结构 和 种 类 也 具有 多 样 性 ,因此 ,需要 大 数据 流 式 计算 来 保障 系统 的 实时 性 和 可 靠 性 。 

3) 典型 流 式 计算 系统 

(D Spark Streaming, 

Spark Streaming 是 在 Spark 基础 上 扩展 的 实时 计算 框架 ,能 够 实现 高 吞吐 量 的 、 容 错 
处 理 的 流 式 数据 处 理 。 如 图 6-18 所 示 ,Spark Streaming 对 实时 流 数据 的 处 理 流 程 是 ,将 流 
数据 按照 时 间 间 隔 分 为 许多 微小 的 批量 数据 , 即 微 批 ,通过 Spark Engine 以 批 处 理 方式 的 
处 理 微 批 , 得 到 处 理 后 的 结果 。 


原始 流 数 据 微 批 数 据 微 批 处 理 
ing Engine 


图 6-18 Spark Streaming 处 理 流程 


其 中 ,Spark Streaming 中 将 流 数据 分 为 许多 微 批 数据 的 引擎 为 Spark Core, 它 将 流 数 
据 分 为 许多 段 微小 的 数据 ,再 将 这 些 数据 转换 成 RDD(Resilient Distributed Dataset) ,利用 
Spark 系统 的 Spark Engine 对 RDD 进行 Transformation 处 理 , 将 结果 保存 在 内 存 中 。 

容错 性 

Spark Streaming 的 容错 机 制 由 Spark RDD 提供 。 因 为 RDD 是 不 可 变 的 、 可 以 被 重 计 
算 的 分 布 式 数据 集 , 它 记录 了 操作 的 先后 关系 。 若 RDD 的 其 中 一 个 分 区 丢失 , 则 通过 执行 
同样 的 Spark 计算 ,就 能 得 出 丢失 的 分 区 。 

当 原 始 数据 存储 在 具有 容错 性 的 文件 系统 如 HDFS 时 ,可 以 通过 上 述 容 错 机 制 重新 生 
成 RDD, 具 有 容错 性 。 但 是 如 kafka 等 文件 系统 不 具有 容错 性 , 则 可 能 会 丢失 内 存 中 的 数 
据 。 因 此 ,在 Spark Streaming 1.2 中 引入 了 Write Ahead Logs 功能 ,简称 WAL。WAL 的 
功能 是 将 所 有 系统 接收 的 数据 保存 到 日 志文 件 中 。 当 数据 丢失 时 ,日 志文 件 不 会 写 入 数据 ， 
这 样 系统 可 以 通过 日 志文 件 信息 重新 发 送 丢 失 的 数据 ,同样 保证 了 系统 的 容错 性 。 

实时 性 : 

Spark Streaming 的 实时 性 是 基于 Spark 系统 的 , 它 将 流 式 计算 分 解 成 多 个 任务 ,通过 
Spark 引擎 对 数据 人 处理。 由 于 微 批 处 理 后 的 数据 量 相 对 较 少 ,Spark Streaming 的 延迟 减 
低 ,目前 能 达到 最 小 100ms 的 延迟 ,能 够 满足 实时 性 要 求 不 是 非常 高 的 工作 需求 。 

通过 Spark Streaming 处 理 流 数据 ,可 以 比 MapReduce 的 数据 处 理 速度 更 快 。 但 是 由 
于 流 数 据 处 理 的 方法 依旧 是 批 处 理 的 方法 ,需要 将 数据 进行 缓存 ,占用 内 存 资源 多 ,大 量 数 
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据 的 传人 和 传 出 会 影响 数据 处 理 的 速度 ,因此 ,Spark Streaming 适用 于 重视 吞吐 率 , 延 迟 要 
求 较 低 的 工作 。 

(2) Storm 系统 。 

Strom 系统 是 由 Twitter 支持 开发 的 一 个 分 布 式 、 实 时 的 高 容错 开源 流 式 计 算 系 统 。 
它 侧 重 于 低 延 迟 , 是 要 求实 时 处 理 的 工作 负载 的 最 佳 选择 。 与 Spark 系统 的 微 批 数 据 处 理 
不 同 ,Storm 系统 采用 的 是 原生 流 数 据 处 理 , 即 直接 处 理 每 个 到 达 的 数据 。 很 明显 ,原生 流 
数据 处 理 的 速度 优 于 微 批 数据 处 理 , 但 是 这 种 处 理 方式 需要 考虑 每 个 数据 ,需要 的 系统 成 本 
比较 高 。 

Storm 系统 计算 的 作业 逻辑 单元 是 拓扑 (Topology) ,是 一 个 Thrift 结构 ,因此 需要 将 
原生 数据 流转 换 处 理 成 拓扑 。 拓 扑 包 括 spout 和 
bolt 两 种 组 件 ,spout 是 拓扑 的 起 始 单元 , 它 从 外 部 
数据 源 中 读 取 原生 数据 流 , 通 过 nextTuple 方法 将 数 
据 组 织 成 Tuple 元 组 发 送 给 bolt; bolt 是 拓扑 的 处 
理 单元 ,与 spout 相互 连接 ,将 接收 到 的 Tuple 元 组 
进行 过 滤 、 聚 合 .连接 等 处 理 , 以 流 的 形式 输出 结 
多 个 spout 和 bolt 连接 形成 的 网 络 为 拓扑 ,如 图 6-19 IES Sora SRI 
所 示 。 

Storm 系统 采用 的 是 主 从 式 架 构 , 它 主要 由 一 个 主 节点 nimbus、 多 个 从 节点 supervisor 和 
zookeeper 集群 组 成 , 主 节点 和 从 节点 由 zookeeper 进行 协调 ,系统 的 架构 如 图 6-20 所 示 。 

工作 节点 


supervisor 


worker worker 


Zookeeper 


主 控 节点 supervisor 


nimbus | => | zookeeper | 《一 一 > 


worker worker 


zookeeper 


supervisor 


worker worker 


图 6-20 Storm 系统 架构 


当 Storm 系统 部 署 完成 后 ,主要 分 为 4 个 步骤 进行 数据 流 处 理 ， 

CD 将 原生 数据 流 处 理 成 拓扑 ,提交 给 主 节点 nimbus; 

© EWA nimbus 从 zookeeper 集群 中 获得 心跳 信息 ,根据 系统 情况 分 配 资源 和 任务 给 
从 节点 supervisor 执行 ; 

© 从 节点 监听 到 任务 后 启动 或 关闭 worker 进程 执行 任务 ; 

(D worker 执行 任务 ,把 相关 信息 发 送 给 zookeeper 集群 存储 。 

每 个 拓扑 是 由 不 同 的 从 节点 上 的 worker 共同 组 成 的 。zookeeper 集群 是 系统 的 外 部 资 
源 , 存 储 了 拓扑 信息 和 各 节点 的 状态 信息 , 主 节 点 和 从 节点 间 通 过 zookeeper 集群 传送 信 
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息 , 没 有 直接 交互 。 主 节点 nimbus 根据 zookeeper 集群 的 心跳 信息 进行 系统 状态 监控 和 配 
置 管理 。 它 们 的 数据 交互 如 图 6-21 所 示 。 


nimbus 
心跳 信息 L7 
a 心跳 信息 
zookeeper [2 --------4 superviser 


启动 JVM 


worker 
tuples 


621 系统 数据 交互 


Storm 系统 是 面向 单条 数据 的 ,能 够 很 好 地 实现 对 数据 的 简单 业务 处 理 , 延 时 极 低 ,很 
适合 实时 处 理工 作 。 但 是 由 于 单条 数据 的 丢失 很 难 维护 ,Storm 系统 不 适合 处 理 逻辑 较 复 
杂 , 容 错 性 要 求 高 的 工作 。 

(3) S4 系统 。 

S4 系统 (Simple Scalable Streaming System) 是 雅虎 用 Java 语言 开发 的 通用 、 分 布 式 、 
低 延 时 、 可 扩展 、 可 拔 搬 的 大 数据 流 式 计算 系统 , 它 采 用 的 也 是 原生 流 数据 处 理 。 

SA 系统 的 基本 计算 单元 为 处 理 单 元 PECprocessing element) , 它 包 括 四 个 部 分 : 函数 、 
事件 类 型 ,主键 \ 键 值 。 其 中 ,函数 表示 PE 的 功能 与 配置 ,事件 类 型 表示 PE 接收 的 事件 类 
型 ,主键 和 键 值 构成 键 值 对 (K,A) ,是 由 数据 项 抽象 形成 的 。 每 个 PE 只 处 理事 件 类 型 \ 主 
键 , 键 值 都 匹配 的 事件 。 若 某 一 事件 没有 可 匹配 的 PE, 系 统 会 创建 一 个 新 的 处 理 单元 。 键 
值 对 (K,A) 构 成 数据 流 ,在 处 理 单元 PE 间 流 动 ,与 各 PE 构成 一 个 有 向 无 环 图 , 即 任务 拓 
扑 ,如 图 6-22 所 示 。 

如 图 6-23 所 示 ,系统 由 用 户 空间 、 资 源 调 度 空 间 和 SA 处 理 节点 空间 组 成 。 用 户 空 间 允 
许多 个 用 户 通过 本 地 客户 端 驱动 实现 请 求 ; 资源 调度 空间 通过 TCP/IP 协议 实现 用 户 的 客 
户 端 驱 动 与 客户 适配器 的 连接 和 通信 ,支持 多 个 用 户 并 发 请 求 ; SA 处 理 节点 空间 由 多 个 处 
理 节点 Pnode 组 成 ,完成 用 户 服务 请 求 的 计算 。S4 处 理 空间 节点 采用 的 是 对 等 式 架构 , 没 
有 中 心 节点 ,各 处 理 节点 相互 独立 ,系统 具有 高 并 发 性 。 


S ooo. 


taut U 


1 
1 
1 
CST 


PED 
(性能 监控 ) (arama), 
CD CD ee (配置 维护 ) 《人 名字 服务 "a 
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GD (Pnode 1) (Pnode 2) … DE 


B 6-22 S4 系统 任务 拓扑 图 6-23 S4 系统 架构 
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S4 系统 的 伸缩 性 、 扩 展 性 很 好 ,也 能 满足 低 时 延 、 高 吞吐 量 的 工作 负载 要 求 。 但 是 , 当 
数据 流 到 达 速 度 超过 一 定 界 限时 ,系统 的 错误 率 会 随 着 到 达 速 度 的 提高 而 增 大 , 且 仅 支持 部 
分 容错 。 所 以 数据 流速 度 突变 大 容错 要 求 高 的 工作 负载 不 适合 采用 S4 系统 。 

(4) Kafka 系统 。 

Kafka 系统 是 由 Linkedin 支持 开发 的 分 布 式 ,高 吞吐 量 ` 开 源 的 发 布 订阅 消息 系统 ,能 
够 有 效 处 理 活跃 的 流 式 数据 。 它 侧重 于 系统 吞吐 量 ,通过 分 布 式 结构 ,实现 了 每 秒 处 理 数 十 
万 消息 的 需求 。 同 时 通过 数据 追加 的 方式 ,实现 磁盘 数据 的 持久 化 存储 ,优化 了 传输 机 制 ， 
能 够 有 效 节 省 资源 和 存储 空间 。 

Kafka 系统 的 架构 如 图 6-24 所 示 , 由 消息 发 布 者 producer、 缓 存 代 理 broker 和 订阅 者 
consumer 三 类 组 件 构成 ,它们 三 者 之 间 的 传输 数据 为 消息 message. message 为 字 节 数组 ， 
支持 String、Json、Avro 等 数据 格式 。 其 中 ,消息 发 布 者 可 以 向 Kafka 系统 的 一 个 主题 topic 
推送 相关 消息 ,缓存 代理 存储 已 发 布 的 消息 ,订阅 者 从 缓存 代理 处 拉 取 自己 感 兴趣 主题 的 一 
组 消息 。 三 者 的 状态 管理 及 负载 均衡 都 由 Zookeeper 集群 负责 。 


| ar 1 
bod i 

sc Topicl XC Topicl 3 
E 


| 1 Hadoop Real-Time) — Data 1 
f 者 cluster monitroing warehouse. i 


图 6-24 Kafka 系统 架构 


Kafka 系统 消息 处 理 的 流程 : 

D 系统 根据 消息 源 的 类 型 将 其 分 为 不 同 的 主题 topic, 每 个 topic 包含 一 个 或 多 个 
partition, 

© 消息 发 布 者 按照 指定 的 partition 方法 ,给 每 个 消息 绑 定 一 个 键 值 , 保 证 将 消息 推送 
到 相应 的 topic 的 partition 中 ,每 个 partition 代表 一 个 有 序 的 消息 队列 。 

© 缓存 代理 将 消息 持久 化 到 磁盘 ,设置 消息 的 保留 时 间 , 系 统 仅 存 储 未 读 消息 。 

@ 订阅 者 订阅 了 某 一 个 主题 topic, 则 从 缓存 代理 中 拉 取 该 主题 的 所 有 具有 相同 键 值 
的 消息 。 

Kafka 系统 具有 可 拓展 性 、 低 延迟 性 ,能 够 快速 处 理 大 量 流 数据 ,特别 适合 于 春 吐 量 高 
的 工作 负载 。 但 是 它 也 存在 一 些 不 足 : 仅 支 持 部 分 容错 ,节点 故障 则 会 丢失 其 内 存 中 的 状 
态 信息 ; 若 代理 缓存 故障 , 则 其 保存 的 数据 不 可 用 ,因为 没有 副本 节点 。 

4) 流 式 计算 系统 对 比 

根据 前 面 介绍 的 各 系统 特点 ,对比 不 同系 统 的 性 能 如 表 6-9 所 示 。 
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X69 流 式 计算 系统 性 能 对 比 


性 能 Spark Streaming Storm 系统 S4 系统 Kafka 系统 
系统 架构 主 从 式 架构 主 从 式 架构 对 等 式 架构 主 从 式 架构 
开发 语言 Java Clojure, Java Java Scala 
数据 传输 方式 拉 取 拉 取 推送 推送 拉 取 
容错 机 制 作业 级 容错 作业 级 容错 部 分 容错 部 分 容错 
负载 均衡 支持 不 支持 不 支持 部 分 支持 
资源 利用 率 高 高 低 低 
状态 持久 化 支持 不 支持 支持 不 支持 
编程 模型 纯 编 程 纯 编 程 编程 十 XML 纯 编 程 

通过 对 比 可 以 发 现 ,不 同 的 系统 可 以 满足 不 同 的 业务 需求 ,从 以 下 3 个 方面 相 比较 ; 

(1) 容错 机 制 。 


Spark Streaming 和 Storm 采用 作业 级 容错 机 制 , 若 数据 处 理 过 程 发 生 异 常 ,相应 的 组 
件 会 重新 发 送 该 数据 ,保证 每 个 数据 都 被 处 理 过 。 而 S4 系统 和 Kafka 系统 仅 支 持 部 分 容 
错 , 若 节 点 失效 ,内 存 中 的 数据 丢失 。 

(2) 负载 均衡 。 

Spark Streaming 能 够 根据 每 个 节点 的 状态 将 task 动态 分 配 到 不 同 的 节点 ,实现 负载 
均衡 ,Kafka 系统 则 是 利用 Zookeeper 集群 实现 负载 均衡 。Storm 系统 增删 节点 后 ,已 存在 
的 任务 拓扑 不 会 均衡 调整 ,而 SA 系统 是 无 法 实现 动态 部 署 节点 ,所 以 不 支持 负载 均衡 。 

(3) 状态 持久 化 。 

Spark Streaming 和 S4 系统 支持 状态 持久 化 。Spark Streaming 调用 persist 方法 ,系统 
自动 将 数据 流 中 的 RDD 持久 化 到 内 存 中 。 而 Storm 系统 和 Kafka 系统 不 支持 状态 持久 
化 ,Kafka 系统 支持 消息 持久 化 。 

可 以 发 现 ,不 同系 统 的 优 劣 不 同 ,根据 业务 需求 选择 使 用 的 系统 ,才能 最 大 化 发 挥 系 统 
的 长 处 ,有 效 快速 地 处 理 流 式 数据 。 


6.4 典型 大 数据 分 析 管 理 平台 


当前 实现 大 数据 综合 管理 平台 的 有 Cloudera 的 CDH、Hortonworks 的 HDP 和 耶鲁 大 
学 的 HadoopDB。 其 中 CDH (Cloudera's Distribution including Apache Hadoop) 是 
Cloudera 公司 开发 的 用 于 管理 和 部 署 Hadoop 集群 的 综合 大 数据 平台 ,Cloudera CDH 有 免 
费 版 和 企业 版 。CDH 除了 指出 Hadoop 平台 相关 组 件 外 ,还 基于 Google 的 分 布 式 查 询 引 
Dremel 开发 了 Impala, 使 用 Apache Impala 可 以 实现 对 HDFS 和 HBase 的 高 性 能 SQL 
查询 。 

HDP 是 Hortonworks Data Platform 的 缩写 。Hortonworks Data Platform 是 一 款 基 
于 Apache Hadoop 的 完全 开源 数据 平台 ,提供 大 数据 云 存储 、 大 数据 处 理 和 分 析 等 服务 。 
该 平台 包括 各 种 的 Apache Hadoop 项 目 以 及 Hadoop 分 布 式 文件 系统 (HDFS)、MapReduce、 
Pig、Hive、HBase、Zookeeper 和 其 他 各 种 组 件 ,使 Hadoop 的 平台 更 易于 管理 ,更 加 具有 开 
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放 性 以 及 可 扩展 性 。 

HadoopDB 是 耶鲁 大 学 开发 的 一 个 Mapreduce 和 传统 关系 型 数据 库 的 混合 体 ,结合 
MapReduce 的 可 扩展 性 优势 和 并 行 数据 库 的 性 能 、 效 率 优势 , 以 管理 和 分 析 大 数据 ， 
HadoopDB 的 商业 化 平台 称 为 Hadapt。 下 面 详细 介绍 3 种 大 数据 综合 管理 平台 的 技术 


6.4.1 Cloudera Impala 


1. Impala 原理 

Impala 是 CDH(Cloudera Distribution with Apache Hadoop) 的 一 个 组 件 ,是 一 个 对 大 
量 数 据 并 行 处 理 (MPP-Massively Parallel Processing) 的 查询 引擎 。Impala 是 受到 Google 
的 Dremel 原理 的 启发 而 开发 出 来 的 ,除了 Dremel 的 全 部 功能 之 外 , 它 提供 了 Dremel 不 具 
备 的 Join 功能 ,可 以 说 是 Dremel 的 超 集 。Impala 与 Hive 都 是 构建 在 Hadoop 之 上 的 数据 
查询 工具 ,各 有 不 同 的 侧重 适应 面 , 但 从 客户 端 使 用 来 看 Impala 与 Hive 有 很 多 的 共同 之 
处 ,如 数据 表 元 数据 ,ODBC/JDBC 驱动 .SQL 语法 .灵活 的 文件 格式 、 存 储 资源 池 等 。 
Impala 与 Hive 在 Hadoop 中 的 关系 如 图 6-25 所 示 。 

Impala 与 Hive 使 用 同一 个 元 数据 库 , 可 以 与 Hive 实现 互 访 ,并 兼容 大 部 分 HQL if 
言 。 其 基本 原理 是 将 一 个 查询 根据 数据 所 在 位 置 分 割 成 为 子 查 询 并 在 各 个 节点 上 运行 ,各 
个 节点 运行 结果 再 汇总 形成 最 终结 果 返 回 给 客户 端 。Impala 的 每 个 节点 都 直接 读 取 本 地 
数据 ,并 在 本 地 执行 子 查询 。 在 执行 子 查询 时 ,节点 之 间 交 换 数据 完成 各 自 的 查询 。 具 体 的 
查询 树 分 布 化 过 程 ( 见 图 6-26) 为 : (1)Impala 接收 到 SQL 查询 首先 生成 SQL 查询 树 , 由 查 
询 树 得 知 哪些 部 分 在 本 地 运行 ,哪些 部 分 可 以 在 分 布 式 系统 上 运行 ; (2) 各 个 节点 直接 从 


HDFS 的 本 地 文件 读 取 数据 ,各 个 节点 上 分 别 进 行 Join 和 Group By 聚合 。 由 各 个 节点 把 
处 理 后 的 数据 汇总 发 送 到 接受 查询 的 节点 上 ,由 该 节点 进行 汇总 聚合 及 最 后 的 排序 截取 工 
作 ;(3)Impala 把 SQL 语句 拆散 成 碎片 分 配 到 各 个 节点 上 ,达到 高 速 查 询 的 目的 。 
{ay [Sort Limit] | 
1 分 布 
1 运行 聚合 由 
Group By 上 
Hiv 1 可 分 | 部 分 聚合 
L | MapReduce HT Join T 
de mmm RÀ € A 
图 6-25 Impala 与 Hive 的 关系 6-26 HQL 查询 树 


Impala 的 优点 有 : (1) 互 动 式 的 查询 ,提供 实时 的 大 量 数据 并 行 处 理 ; (2) 兼 容 Hive 的 
数据 仓库 ,如 以 前 使 用 过 Hive 则 不 必 转 移 Hive 历史 数据 ; (3) 使 用 与 Hive 相同 的 JDBC, 
ODBC 驱动 , 故 基于 Hive 的 程序 只 需 很 小 的 改动 就 可 以 迁移 到 Impala 上 。 
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Impala 的 局 限 有 : CL) EAS Sc f$ SerDe 和 用 户 自 定义 函数 UDF、UDAF; (2) 不 能 像 
Hive 一 样 添加 用 户 自 定义 的 Mapper 和 Reducer; (3) 查 询 过 程 中 不 支持 容错 处 理 , 一 旦 有 
一 个 节点 失败 即 整个 查询 失败 ; (4) 暂 不 支持 没有 limit 的 order by. 

2. Impala 的 基本 架构 

Impala 的 系统 架构 如 图 6-27 所 示 , 其 核心 组 件 包 括 Query PlannerCImpala 规划 器 )、 
Query Coordinator(Impala 协调 器 ) ,Query Exec Engine(Impala 执行 引擎 ) 。QueryPalnner 
接收 来 自 SQL APP 和 ODBC 的 查询 ,然后 将 查询 转换 为 许多 子 查 询 ,Query Coordinator 
将 这 些 子 查询 分 发 到 各 个 节点 上 ,由 各 个 节点 上 的 Query Exec Engine 负责 子 查询 的 执行 ， 
最 后 返回 子 查询 的 结果 ,这 些 中 间 结 果 经 过 聚集 之 后 最 终 返回 给 用 户 。Impala 在 每 个 节点 

上 运行 一 个 守护 进程 Impala Daemon ,每 个 节点 都 可 以 接受 查询 。Impala Daemon 内 部 又 
细 分 为 Impala 规划 器 .Impala 协调 器 、Impala 执行 引擎 。 除 此 之 外 ,Impala 还 需要 运行 状 
态 存 储 器 的 守护 进程 (StateStore Daemon) ,由 状态 存储 器 来 保存 和 更 新 各 个 Impalad 的 状 
态 以 供 查询 。 具 体 过 程 如 下 : 


| | Lin] i 
MUE NameNode 
— € 
Impala 规 划 器 Impala 规 划 器 Impala 规 划 器 
Impala 协 调 器 Impala 协 调 器 Impala 协 调 器 
Impala 执 行 引擎 ff H Impala 执 行 引擎 | | 广 亿 Impala 执 行 引擎 
li HBASE|| |_| |HDFS|}HBASE| | | L|HDFS | HBASE 


DataNodel DataNode2 DataNode3 


图 6-27 Impala 架构 


CD 用 户 通过 Impala-Shell, JDBC/ODBC 或 HUE 前 端 发 送 查询 命令 到 某 Impala 节 
点 上 。 
(2) 由 Impala 规划 器 接收 和 分 析 查 询 命 令 , 它 与 NameNode 上 的 Hive 元 数据 库 、 
HDFS 元 数据 库 和 状态 储存 器 进行 通信 ,获得 各 部 分 数据 的 位 置 并 将 查询 命令 分 割 成 小 的 
子 查询 。( 状 态 储存 器 保存 了 各 个 Impala 节点 的 状态 ) 

(3) Impala 协调 器 将 子 查询 分 配 到 各 个 节点 的 Impala 执行 引擎 上 。 

(4) 各 个 Impala 执行 引擎 执行 各 自 的 查询 ,他们 之 间 直 接 读 取 本 地 HDFS 或 HBASE 
数据 ,并 与 其 他 执行 引擎 进行 通信 以 完成 各 自 的 查询 。 

(5) 各 个 Impala 执行 引擎 把 部 分 结果 返回 给 Impala 协调 器 。 

(6) Impala 协调 器 汇总 部 分 结果 组 成 最 终结 果 , 将 最 终结 果 返 回 给 客户 端 。 

3. MapReduce,Hive 5 Impala 的 分 析 比 较 

MapReduce, Hive fil Impala 各 有 其 优 缺 点 ,它们 的 分 析 比 较 如 表 6-10 所 示 。 由 表 6-10 
可 以 看 出 ,MapReduce 有 编程 灵活 性 的 优势 ,可 以 进行 复杂 的 大 数据 处 理 。 而 Impala 在 数 
据 处 理 效率 方面 占有 优势 。 
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表 6-10 MapReduce、Hive 与 Impala 的 比较 


项 目 MapReduce Hive Impala 
1. 采用 自己 的 执行 引擎 ,把 一 个 查 
询 拆 分 成 碎片 分 布 到 各 个 节点 执 
行 ,不 依赖 MapReduce, 不 采用 批 处 
pa 1. 基于 MapReduce, 是 | 理 形式 处 理 数据 


2. 采用 高 容错 的 分 布 式 结构 ， 
JobTracker 和 TaskTracker 的 
MasterSlave 结 构 。 


与 Slave 之 间 用 心跳 包 保持 


Master 


在 MapReduce 上 加 入 有 
限 的 数据 库 管理 功能 的 
数据 仓库 。 

2. 只 有 GateWay 节点 


2. 各 个 节点 间 是 对 等 的 ,没有 
Master、Slave 之 分 ,各 个 节点 都 可 
以 有 impala 守护 进程 ,都 可 以 接受 
查询 请 求 。 


结构 联系 可 以 接受 HQL 查询 。 | 3. 各 个 节点 直接 从 HDFS 的 本 地 文 
3. 使 用 本 地 SQL 数据 | 件 (Raw HDFS Files) 中 读 取 数据 ,不 
— T 库存 储 元 数据 ,数据 存 | 经 过 NameNode 和 DataNode。 
DataNode 读 取 数据 。 储 于 HDFS E. 4. 由 StateStore 守护 进程 保存 各 个 
4、 基 于 主机 和 机 架 的 感知 4. 通过 MapReduce 间 | 节点 的 运行 状态 ,以 供 查询 。 
接 读 取 HDFS 数据 5. 可 与 Hive 使 用 同一 元 数据 库 。 
6. 基于 主机 和 硬盘 的 感知 ,提高 数 
据 读 取 速 度 。 
7. 执行 查询 过 程 中 无 法 容错 
基于 map 和 reduce 思想 的 函 | 把 HQL 语句 编译 成 为 | 将 一 个 查询 请 求 拆 分 成 多 个 碎片 ， 
原理 数 式 编程 MapReduce 作业 分 布 到 各 个 节点 执行 
“分 而 治之 ”的 编程 思想 
实现 语言 | Java "m 
运行 平台 |JVM 原生 linux 系统 
使 用 命令 行进 行 操 作 ,Web 界 | Hive shell，Web 界面 | 与 Hive 类 似 , 提 供 Impala shell 和 
用 户 界面 | 面 可 监视 任务 进度 BeesWax Web UI 
面向 用 户 | Java 程序 员 SQL 语言 使 用 者 
用 户 语言 | Java HQL, 不 要 求 用 户 会 使 用 Java 的 编程 语言 
启动 速度 | 由 于 需要 启动 JVM, 故 启动 速度 较 慢 直接 运行 原生 程序 ,速度 快 
执行 速度 | 批 处 理 , 不 必要 的 排序 和 读 取 ,速度 慢 扫描 文件 直接 提取 数据 ,速度 快 
ra EN 可 以 插入 自 定 义 Mapper | 不 支持 UDF, UDAF, SerDe; 只 能 
其 他 | 可 以 进行 灵活 编程 ,完成 复杂 | 和 Reducer 关 ,辅助 完成 | 完成 简单 的 查询 ,对 于 比较 复杂 的 


ETL 和 数据 处 理 功能 


HQL 无 法 完成 的 查询 


功能 无 能 为 力 


6.4.2 Hortonworks Data Platform 


根据 Hortonworks 官网 的 介绍 , Hortonworks 数据 平台 (HDP) 基 于 集中 化 架构 
YARN, 是 业内 唯一 的 一 款 极 其 安全 且 可 用 于 企业 的 开源 Apache Hadoop 分 布 式 系统 。 
HDP 可 满足 静态 数据 的 全 部 需求 ,助力 实时 客户 应 用 程序 ,并 提供 可 加 速决 策 和 创新 进程 
的 强大 大 数据 分 析 功 能 。 

1. HDP 技术 架构 与 原理 

HDP 的 技术 架构 如 图 6-28 所 示 。 从 整个 架构 中 可 以 看 出 , 共 包 含 以 下 六 个 重要 部 分 : 
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Zeppelin Ambari User Views 配置 、 管 理 和 监控 
sr iind 
nnn a) nnt 
Falcon Ranger 
m Cloudbreak 
Atlas 批量 脚本 sql Mosql 流 搜索 PRF 其 他 Knox 
Map | Pig | Hive | HBase | Storm | Solr | Spark | HAWQ Allia peter 
Reduce Accumulo 合作 伙伴 
数据 工作 流 Phoenix Big SQL HDFS Encryption 计划 
sqoop Te | Te slider ca" 


oorie 
mes YARN : EHI E 
Katka 


urs HDFSHadoop 分 布 式 文件 系统 


WebHDFS nume 


图 6-28 技术 架构 图 


(1) 数据 管理 : YARN 和 Hadoop 分 布 式 文件 系统 (HDFS) 是 HDP 面向 静态 数据 的 两 
大 里 程 碑 式 组 件 。HDFS 为 大 数据 提供 了 可 扩展 .可 容错 且 极 具 成 本 效益 的 储存 ,而 
YARN 则 提供 可 使 用 户 同时 处 理 多 个 工作 负载 的 中 心 化 架构 。 还 有 ,YARN 提供 资源 管理 
和 可 插 拔 架构 ,以 支持 广泛 的 数据 访问 方法 。 

(2) 数据 访问 : HDP 包括 多 种 多 样 的 处 理 引 擎 ,使 用 户 能 够 同时 以 多 种 方式 与 相同 的 
数据 进行 交互 。 这 意味 着 用 于 大 数据 分 析 的 应 用 程序 能 够 以 最 佳 方式 和 数据 交互 ,包括 批 
处 理 , 交 互 式 SQL 查询 ,使 用 低 延 迟 访问 的 NoSQL 等 。 由 于 Apache Spark, Storm 和 
Kafka 等 组 件 的 存在 ,使 得 HDP 支持 数据 科学 .搜索 和 流 媒体 等 新 兴 使 用 案例 的 使 用 。 

(3) 数据 管制 和 集成 : HDP 通过 用 于 数据 管制 和 集成 的 强大 工具 扩展 数据 访问 和 管 
理 。 这 些 工具 提供 可 靠 、 可 重复 使 用 以 及 简单 的 框架 来 管理 数据 流 在 Hadoop 中 的 进出 。 
该 控制 结构 和 将 源 上 的 模式 或 元 数据 应 用 简化 和 自动 化 的 一 组 工具 对 于 成 功 将 Hadoop 集 
成 到 现代 化 数据 架构 中 起 着 至 关 重要 的 作用 。 

(4) 安全 性 : 安全 性 以 多 个 层次 角度 加 入 和 集成 到 HDP 中 , 它 提供 用 于 身份 验证 、 授 
权 、 可 归 责 性 以 及 数据 保护 的 关键 功能 ,从 而 确保 HDP 的 安全 。HDP 在 所 有 企业 Hadoop 
功能 上 保持 方法 一 致 ,还 确保 用 户 可 和 集成 和 扩展 自己 当前 的 安全 解决 方案 ,从 而 在 企业 现代 
化 数据 架构 上 提供 单一 一致, 安全 的 保护 。 

C5) 运营 : 基于 Ambari 实现 ,Ambari 是 一 款 开 源 管理 平台 ,可 用 于 配置 .管理 ,监控 和 
保护 HDP。 它 能 够 管理 和 监控 Hadoop 集群 ,使 Hadoop 能 够 无 颖 融入 企业 环境 。 

(6) 云 ( 架 构图 中 没有 体现 这 一 部 分 ): Cloudbreak 是 HDP 的 一 部 分 , 它 基 于 Apache 
Ambari, 可 简化 在 Amazon Web Services、 Microsoft Azure、Google Cloud Platform 和 
OpenStack 等 任何 云 环境 中 的 配置 和 Hadoop 群集 管理 。 它 在 工作 负载 变化 时 可 优化 用 户 
使 用 云 资 源 的 方式 。 

2. 基于 HDP 的 大 数据 平台 搭建 

这 里 我 们 将 基于 Ambari 搭建 HDP 大 数据 平台 ,在 开始 搭建 之 前 , 先 给 出 整体 环境 的 
集群 架构 图 ,如 图 6-29 所 示 , 且 每 个 节点 的 操作 系统 均 为 CentOS 7 系统 。 

对 应 于 上 述 的 集群 架构 图 , 表 6-11 展示 了 每 个 节点 的 IP 地 址 以 及 安装 的 组 件 及 服务 
信息 
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4 
np 


master 
192.168.152.161/24 


162/24 


163/24 


repo 
192.168.152.160/24 


Slave01 & Slave02 


Ambari-Server & Agent 
Ambari-Agent E) 


图 6-29 集群 架构 图 


表 6-11 节点 规划 
x 型 主要 组 件 及 服务 


master 


192. 168. 152. 161 


Activity Analyzer, Activity Explorer 
DataNode, HCat Client, HDFS Client 
Hive Client, HST Agent, HST Server 
Kafka Broker, MapReduce2 Client 
Grafana, Metrics Monitor, NameNode 
NodeManager,Pig Client Slider Client 
Spark Client,Spark History Server 
Tez Client, YARN Client 

ZooKeeper Client,ZooKeeper Server 


Ambari-Server 
Ambari-Agent 


slavel 


192. 168. 152. 162 


App Timeline Server, DataNode 

HDFS Client, History Server, Hive Client 
Hive Metastore, HiveServer2, HST Agent 
MapReduce2 Client, Metrics Monitor 
Ambari-Agent MySQL Server, NodeManager,Pig Client 
ResourceManager, SNameNode 

Spark Client, Tez Client, WebHCat Server 
YARN Client, ZooKeeper Client 
ZooKeeper Server 


slave2 


192. 168. 152. 163 


DataNode, HCat Client, HDFS Client 
Hive Client, HST Agent 

MapReduce2 Client, Metrics Collector 
Ambari-Agent Metrics Monitor, NodeManager 

Pig Client,Slider Client, Spark Client 
Tez Client, YARN Client 

ZooKeeper Client, ZooKeeper Server 


repo 


192. 168. 152. 160 


本 地 仓库 
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1) 环境 准备 
首先 ,先进 行 一 些 必 要 的 环境 准备 工作 ,包括 以 下 几 个 方面 : 
CD 将 集群 信息 添加 进 各 主机 的 /etc/hosts 文件 中 ,内 容 如 下 所 示 。 


192.168.152.160 repo 
192.168.152.161 master 
192.168.152.162 slave01 
192.168.152.163 slave02 


(2) 设置 集群 各 节点 间 SSH 免 密 码 登录 : 在 Ambari-Server 主机 上 使 用 ssh-kengen 命令 
生成 密 钥 对 ,将 SSH 公 钥 id_rsa. pub 文件 内 容 添 加 到 所 有 Ambari-Agent 主机 的 authorized_ 
keys 文件 中 ,可 使 用 ssh-copy-id 命令 分 发 各 个 机 器 的 公 钥 ,详细 操作 可 参考 相关 资料 。 

(3) 开启 集群 的 NTP 服务 : 在 CentOS 7 系统 上 ,可 分 别 通 过 下 面 的 指令 实现 安装 
NTP 服务 ,检查 是 否 开 启 并 设置 为 开机 启动 功能 。 


yum install — y ntp // 安 装 NTP 服务 

systemctl is- enabled ntpd // 检 查 开机 时 是 否 自动 启动 NTP 服务 
systemctl enable ntpd // 设 置 为 开机 启动 

systemctl start ntpd // Ji 8l NTP 服务 


(4) 关闭 防火 墙 : 由 于 集群 环境 封闭 ,我 们 直接 把 防火 墙 关闭 ,可 通过 下 面 指令 实现 。 


systemctl disable firewalld 
systenctl stop firewalld 


(5) 关闭 SELinux, PackageKit 并 检查 umask 值 : 通过 setenforce 0 指令 关闭 
SELinux, 然 后 打开 /etc/yum/pluginconf. d/refresh-packagekit. conf ,使 得 其 中 enabled— 0, 
最 后 通过 指令 echo umask 0022 >> /etc/profile 更 改 umask ff. 

(6) 配置 JDK 环境 ,过 程 在 这 里 不 再 细 说 ,要 注意 的 是 请 务必 保证 每 个 主机 上 的 JDK 
环境 配置 保持 一 致 ,否则 会 影响 到 后 面 的 操作 。 

2) 本 地 仓库 配置 

在 主机 repo 上 ,我 们 需要 完成 如 下 一 些 准备 工作 : 

CL) 获取 仓库 文件 : 共 需 要 下 载 3 个 压缩 包 , 分 别 是 Ambari 2. 4. 1 压缩 包 、HDP 压缩 
包 以 及 HDP UTILS 压缩 包 ,3 个 压缩 包 分 别 对 应 以 下 三 个 下 载 地 址 : http://public-repo- 
1. hortonworks. com/ambari/centos7/2. x/updates/2. 4. 1. 0/ambari-2. 4. 1. 0-centos7. tar. 
gz, http://public-repo-1. hortonworks. com/ HDP/centos7/2. x/updates/2. 5. 0. 0/ HDP- 
2. 5. 0. 0-centos7-rpm. tar. gz 以 及 http://public-repo-1. hortonworks. com/ HDP-UTILS- 
1. 1. 0. 21/repos/centos7/ HDP-UTILS-1. 1. 0. 21-centos7. tar. gz. 

(2) 创建 HTTP 服务 : 通过 指令 yum install httpd 安装 Apache httpd, 可 以 看 到 生成 
了 /var/www/ 目 录 , 接 着 新 建 目 录 /var/www/html/hdp VA &/var/www/html/hdp/HDP- 
UTILS-1. 1. 0. 21/repos/centos? ,将 Ambari 2. 4. 1 压缩 包 解 压 到 /var/www/html, HDP Æ 
缩 包 解压 到 /var/www/html/hdp, HDP UTILS 压缩 包 解 压 到 /var/www/html/hdp/HDP- 
UTILS-1. 1. 0. 21/repos/centos? 。 
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3) 获取 Repo 文件 
首先 ,我们 先 通过 以 下 两 个 地 址 下 载 Ambari 和 HDP 的 Repo 文件 : 
http:/ / public-repo-1. hortonworks. com/ambari/centos7/2. x/ updates/2. 4. 1. 0/ambari. repo 


http: / / public-repo-1. hortonworks. com/ HDP/centos7 


x/ updates/2. 5. 0. 0/hdp. repo 
然后 ,修改 ambari. repo 以 及 hdp. repo 的 内 容 分 别 如 图 6-30 和 图 6-31 所 示 。 
$VERSION NUMBER-2.4.1.0-22 


[Updates-ambari-2.4.1.0] 

name-ambari-2.4.1.0 - Updates 

baseurl-http://repo/AMBARI-2.4.1.0/centos7/2.4.1.0-22 

gpgcheck=1 
gpgkey-http://master/AMBARI-2.4.1.0/centos7/2.4.1.0-22/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins 
enabled=1 

priority=1 


图 6-30 ambari. repo 文件 内 容 


#VERSION_NUMBER=2.5.0.0-1245 
[HDP-2.5.0.0] 

name-HDP Version - HDP-2.5.0.0 
baseurl-http://repo/hdp/HDP/centos?7/ 
gpgcheck=1 


enabled=1 
priority=1 


[HDP-UTILS-1.1.0.21] 
name-HDP-UTILS Version - HDP-UTILS-1.1.0.21 


baseurl-http://repo/hdp/HDP-UTILS-1.1.0.21/repos/centos? 

gpgcheck=1 
gpgkey-http://repo/hdp/HDP-UTILS-1.1.0.21/repos/centos7/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins 
enabled-i 


priority-i 
图 6-31 hdp. repo 文件 内 容 
最 后 将 上 述 修 改 好 的 ambari. repo 以 及 hdp. repo 放 到 Ambari-Server 主机 ( 即 图 6-31 
中 的 master 主机 ) 的 /etc/yum. repos. d/ H 3€ FRM nf, 
A) E 
首先 ,在 master 主机 上 通过 指令 yum repolist 检查 仓库 是 否 已 配置 ,将 会 看 到 类 似 
图 6-32 所 示 的 信息 出 现 。 


装 Ambari Server 


图 6-32 Ambari 仓库 信息 


接着 ,执行 命令 yum install ambari-server, 开 始 安装 Ambari-Server, 安装 成 功 后 会 显 
示 类 似 图 6-33 所 示 的 信息 。 

然后 ,在 启动 Ambari Server 之 前 ,我 们 还 需要 配置 Ambari Server. 执行 指令 ambari- 
server setup ,我 们 有 可 能 会 遇 到 下 面 的 信息 : 

CD 如 果 没 有 关闭 SELinux, 会 显示 一 个 警告 ,输入 y 即 可 ; 
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图 6-33 安装 Ambari-Server 


(2) 在 “Customize user account for ambari-server daemon” 选 项 中 输入 n; 

(3) 如 果 没 有 关闭 防火 墙 , 同 样 会 被 警告 ,输入 y 即 可 ; 

(4) JDK 配置 ,会 有 三 种 方案 ,建议 选择 自 定 义 选项 ,然后 输入 JAVA. HOME 地 址 (对 
应 10. 1. 2. 1 环境 准备 小 节 的 JDK 配置 ); 

(5) 在 “Enter advanced database configuration” 选 项 中 输入 n。 

5) 部 署 HDP 集群 

首先 ,在 主机 master 上 通过 指令 ambari 


程 中 ,显示 错误 “DB configs consi 


server start 启动 Ambari Server( 若 在 启动 过 
stency check failed”, 可 通过 指令 ambari-server start-skip 
database-check 强制 启动 ) ,然后 在 浏览 器 中 输入 地 址 : http://< your. ambari. server >:8080, 
此 处 为 : http://master:8080 ,并 输入 账号 密码 ,账号 密码 默认 均 为 “admin”, 登 录 后 可 以 看 
到 如 图 6-34 所 示 界 面 


Ambari 


Welcome to Apache Ambari 


Provision a cluster, manage who can access the chster, and customize views for Ambar user 


Create a Cluster 


Use the instal Vitzard to select s 


Launch instal Wizard 


configure your Custer 


A User + Group Management 


Man 


Sroups Deploy Vie 


Create view na 


图 6-34 安装 主 界面 
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单 击 “Launch Install Wizard” JA ,为 集群 命名 为 “MyCluster”( 名 字 可 以 随意 命名 ) , 单 击 
下 一 步 ,可 以 看 到 如 图 6-35 所 示 页 面 。 


e : = 


Select Version 


Select the software version and method of defvery for your cluster, Using a Pubic Repostory requires lerne connectivty. Using 
a Local Repostory requires you have configured the software in a repostory avilable in your network 


"t Es 
Ww» Accumdo 170 aj 
É Anter Manos oro 
m 079 
: Faicon 0100 
h Fume 152 
Hesse 112 a 
Cee Pubic Repository 
[ee Local Repostiony 
图 6-35 版 本 选择 


在 这 个 步骤 中 ,我 们 选择 HDP-2. 5, 并 勾 选 “Use Local Repository”. 然后 填写 相关 
URL 信息 (URL 就 是 前 面 本 地 源 的 地 址 ) ,如 图 6-36 所 示 。 
人 Use Local Repository 


Provide Base URLS for the Operating Systems you are configuring 


os Name Base URL add + 
Hop25 tp repohdp HOPIcertos7/ - 

redhat? ibis : 
HOPUTLSA 4 021 Http-Jkepoihdp/HOP-UTLS-1 4 0.21 keposicentos7/ 


[7 Skip Repository Base URL validation (Advanced) © 
[T Use RedHat Satelite/Spacewalk © 


图 6-36 URL 配置 


单 击 Next 后 ,设置 一 些 集群 安装 信息 ,如 配置 集群 主机 列表 .Ambari-Server 主机 的 私 
钥 , 如 图 6-37 所 示 。 

单 击 Next, 等 待 验证 ,这 一 步 主 要 是 检查 每 个 主机 的 环境 ,验证 成 功 后 主机 的 状态 会 变 
为 “SUCCESS”, 如 果 出 现 错误 可 以 在 底部 单 击 按钮 查看 错误 信息 ,如 图 6-38 所 示 。 

继续 下 一 步 ,选择 需要 安装 的 服务 ,这 里 我 们 需要 选择 HDFS、YARN 十 MapReduce2、 
Tez, Hive, Pig, Zookeeper, Ambari Metrics, Kafka, SmartSense, Spark 和 Slider( 请 按 需 选 
Tío ,而 且 现在 没有 选择 的 服务 ,在 以 后 也 可 以 添加 ,所 以 不 必 担心 ,如 图 6-39 所 示 。 

单 击 Next, Ambari 安装 向 导 将 所 选 服务 的 主 组 件 分 配给 集群 中 的 适当 主机 ,并 在 左 侧 
显示 服务 和 所 在 主机 , 右 侧 显示 主机 当前 主 组 件 分 配 , 并 会 显示 每 个 主机 上 安装 的 CPU 内 
核 数 量 和 RAM 数量 ,我们 可 以 根据 实际 情况 自行 配置 ,这 里 我 们 使 用 默认 配置 ,如 图 6-40 
所 示 。 
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LUSTER INSTALL WIZ. 


8 Install Options 
Get Stated 
Select version Enter the list of hosts to be included in the cluster and provide your SSH key. 
Targat Hosts 
Enter a list of hosts using the Fully Qualified Domain Name (FODN) one per line. Or use Patter Expressions 
er master 
on Master -— 
aove02 
| Slaves and Client 


Review 


Install, Start and Test Host Registration information 


(Provide your SSH Private Key to automatically register hosts 
mE. FARRA, 


BEGIN RIA PRIVATE KEY- a 
SUIEpAIBAANTA GEA OP /SETGEDSSe rt 110 aC4yLBT9 «34 j Pa TBaltXeay. 
RIVE «TEs /oP GI/ pei 3540sj 2} ey COAX SH HALVIROGLORQDYXCA | 
les FTbadCGCUSZEL/SCHIe ep lj PIPAN (0290 cHgT gab ALITY / iT/ 


SSH User Account 


SSH Port Number 22 
C Perform manual registration on hosts and do not use SSH 


一 back 


and Confirm 一 


图 6-37 集群 主机 信息 


[A 


Get Stated Confirm Hosts 


Registering your hosts 


Please confirm the host list and remove any hosts that you do not want to include in the cluster 


‘Al host che: 


Chck here to see the che 


一 Back 


图 6-38 ”验证 集群 主机 


[m 


CLUSTER INSTALL WIZARD 


Choose Services 


四 
nr 
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Choose which services you want to instal en your cluster 


0100 


Description 


Apache Hadoop Distributed Fle System 


Apache Hadoop exten MapReduce (YARN) 


Tez is the neat generation Hadcop Query Processing framework writen on top of YARN 


Data warehouse system for adhoc queries 8 analysis of large datasets and table & 
storage management service 


A Non-reational detrited datoboso, pus Phoenix, a high performance SOL layer for kw 
latency applications 


Screting platiorm tor anetrzing large datasets 


Tool tor transterrng ba data between Apache Hadoop and structured dita stores such. 
as relatenal databases 


System for worktiow coordination and execution o! Apache Hadoop jabs. This also 
ches the nstalabon of the ational Cozie Web Conecie which reles on and wh stall 
the ES Library. 


Certrakzed service which provides highly relabie distributed coordination. 


Dato managemert ond processing platform 


图 6-39 选择 服务 


Assign Masters 


Assign master components to hosts you want to run them on. 


‘© HiveServer2 and WebHCat Server wal b 


SNameNode 


NameNode 


ResourceManager: | slaw 


History Server. | sla 


Hive Metastore: s 


WobHCal Server slaved 


imeSene. slaved 


Zookeeper Server: sla 


sed on the same host 


master 37 GB, 4 cores) 


图 6-40 分 配 主 组 件 


单 击 Next. Ambari 安装 向 导 会 将 从 属 组 件 (DataNodes, NodeManagers 等 ) 分 配给 集 


HEP ia > 
图 6-41 所 示 。 


机 , 它 还 会 尝试 选择 主机 来 安装 适当 的 客户 端 , 这 里 同样 使 用 默认 配置 ,如 


继续 下 一 步 ,安装 向 导 提 供 了 一 组 让 我 们 查看 和 修改 HDP 群集 设置 的 选项 卡 , 具 体 而 
言 ,就 是 让 我 们 检查 每 个 服务 的 配置 信息 ,有 些 信息 是 必须 要 手动 添加 的 ,例如 hive 的 数据 
库 的 密码 ,自行 设置 即 可 ,如 图 6-42 所 示 。 
配置 完毕 后 ,继续 单 击 Next, 我 们 可 以 检查 所 有 服务 信息 ,确保 一 切 正 确 , 如 图 6-43 


所 示 。 
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CLUSTER INSTALL WARD 


Assign Slaves and Clients 


Most all | none ali | none all | none all | none all | none 


T Spark Th 


图 6-41 分配 从 属 组 件 和 客户 端 


Mt Stated Customize Services 


We hove come up with recommended configurations for the services you selected. Customize them as you see fi. 


HOF x nse Sp 
T: " 
NameNode DataNode 


E 6-42 自 定义 服务 配置 


CLUSTER INSTALL WIZARD 


Review 


Piea 


Admin Name aime 


Cluster Name = MyCluster 


Total Hosts 3 G new) 


aves and Chen Repositories 


图 6-43 ”服务 安装 信息 


F Spark Thih Sever — 网 Cleni 
"^ Dent 


D Spark Thrit Sewer — Cent 
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然后 , 单 击 “Deploy” 按 钮 ,Ambari 会 开始 安装 ,启动 并 运行 每 个 组 件 的 简单 测试 ,整个 
过 程 的 总 体 状态 显示 在 屏幕 项 部 的 进度 栏 中 ,每 个 主机 的 实时 安装 进度 也 能 够 在 页 面 中 间 
看 到 ,安装 过 程 会 比较 漫长 ,尤其 是 当 组 件 比较 多 的 时 候 , 耐 心 等 待 指导 安装 完成 ,如 图 6-44 
所 示 ,安装 完成 后 若 出 现 一 些 警告 信息 ,一 般 也 不 会 有 问题 ,并 可 以 查看 详细 情况 , 单 击 下 一 
步 可 以 看 到 整个 安装 过 程 的 总 结 ,然后 集群 的 安装 和 部 署 工作 就 完成 了 。 


Install, Start and Test 


Please wait while the selected services are installed and started. 


| EEEEEEEELMILLUUGUUGUGIULULLI ULL LÁGLUGU GIG 100 % over all 


"€ MB casio von cent can 


Host Status Message 
master [T IS 
m [Td 


图 6-44 安装 服务 


最 后 ,我们 可 以 登录 到 Ambari web 管理 页 面 对 整 个 集群 的 状态 进行 查看 ,如 图 6-45 
所 示 。 


Metri 
Metric Actions | Last 1 hour » 


HDFS Disk Usage DataNodes Live HOFS Links Memory Usage 


m Mametiode EJ 
7 " 
2% 3/3 ee - 
i 
100% iim J 区 
" 12% 0.87 ms 03% 
ud s 
lui Pa 
- 
33.6 min ES Y 28.8 min 3/3 - 


图 6-45 集群 状态 图 
3. HDP 应 用 实践 
这 里 我 们 将 使 用 上 面 搭建 的 HDP 平 台 的 部 分 组 件 进行 司机 驾驶 危险 性 案例 实践 , 限 
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于 篇 幅 原因 ,我 们 将 不 对 涉及 的 代码 进行 详细 的 介绍 ,涉及 的 相关 组 件 的 使 用 具体 可 参考 各 
自 的 官方 文档 。 实 践 的 数据 包含 两 个 数据 集 : trucks. csv 以 及 geolocation. csv, 其 中 : 

(1) trucks. csv 收集 了 每 个 司机 驾驶 卡车 的 品牌 以 及 各 时 间 的 行驶 距离 的 信息 ,由 于 
数据 集中 的 字段 名 已 经 可 以 直观 反映 出 各 自 代 表 的 意思 ,所 以 这 里 就 不 一 一 详 述 了 ,读者 可 
以 自行 查看 。 

(2) geolocation. csv 收集 了 所 有 卡车 在 规定 时 间 段 的 各 种 数据 ,包括 卡车 位 置 、 所 在 城 
市 .事件 类 型 .速度 等 记录 ,同样 地 ,不 再 详 述 每 个 字段 的 含义 ,这 里 只 强调 “event” 字 段 , 它 
代表 的 当时 发 生 的 事件 类 型 ,有 诸如 “normal” (正常 行驶 )、“overspeed”( 超 速 ) 等 值 ,这 是 后 
面 计算 危 险 性 的 关键 。 实 践 用 到 的 两 数据 集 可 通过 链接 https://app. box. com/v/ 
HadoopCrashCourseData 进行 下 载 。 

案例 实践 可 以 简单 看 作 如 下 过 程 : 首先 将 数据 集 带 入 到 HDFS, 然 后 通过 Hive 以 及 
Pig 进行 相关 数据 分 析 以 及 表 的 创建 ,最 后 通过 Zeppelin 进行 数据 可 视 化 。 由 于 在 上 面 的 
部 署 中 没有 安装 Zeppelin, 所 以 需要 将 其 装 上 ,在 集群 主 界面 依次 单 击 “Admin”->“Stack 
and Versions” 并 单 击 “Zeppelin Notebook” 服 务 栏 所 对 应 “Add Service” 进 行 服务 的 安装 
即 可 。 

1) 将 数据 集 导 入 HDFS 
首先 ,通过 以 下 指令 创建 存放 数据 集 的 文件 目录 路 径 /user/admin/data/。 


su hdfs 
hdfs dfs - mkdir - p /user/admin/data 
hdfs dfs - chmod 777 /user/adnin /user/admin/data 


接着 ,我 们 打开 *File View" Jt ilii. An [8 6-46 所 示 。 
打开 “File View” JA ,然后 进入 路 径 /user/admin/data, 我 们 将 把 上 | YARN Queue Manager 
述 的 两 个 数据 集 文 件 上 传 在 这 里 , 单 击 右上 角 的 “Upload” 按 钮 , 即 可 


上 传 相关 文件 ,如 图 6-47 和 图 6-48 HER E ede 

2) Hive 进行 ETL 处 理 

与 上 一 个 步骤 类 似 ,只 不 过 这 里 我 们 将 进入 "Hive View”( 可 参考 | 一 
图 6-49) ,首先 通过 以 下 步骤 设置 hive 引擎 ， 图 6-46 Tiri 


£ Upload file to /user/aámin/data. 


图 6-47 文件 上 传 界面 
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司 国 回 ， » wm > an > at Tea 2 ds se EE es Ee <° 


Q 
Name > Size > Last Modified > ‘Owner > Group? Permission 
^ 
口 geolocation csy 5143kB — 2017.09.02 19:48 admin hdfs -rr 
Ditrucks csv 599kB —— 20170902 19:48 admin hdfs “We 


图 6-48 ”相关 数据 集 文件 


CD 单 击 页 面 右 侧 竟 选 项 卡 ,进入 设置 界面 ; 

(2) Jd; EXER HN s 

(3) 选择 左 侧 的 下 拉 菜 单 为 “hive. execution. engine”, 右 侧 为 “tez”, 如 图 6-49 所 示 ; 
(4) Ah + Save Detaut Sotiras 按钮 保存 设置 


Query Editor į 
Worksheet e 
到 SQL 
ü 
hive. execution.engine ~ tez -6 ita. 
% 
TEZ 
[2] 
z 
H 


6-49 设置 Hive 引擎 


然后 , 单 击 上 方 “Upload Table” 选 项 卡 ,并 选择 选项 “Upload from HDFS” ,填写 HDFS 
Path 栏 信息 ,然后 单 击 交 按 钮 ,在 弹出 的 界面 中 色 选 上 “Is first row header?” 选 项 ,此 处 我 
们 填写 的 内 容 为 “/user/admin/data/trucks. csv”, 单 击 “Preview” 按 钮 后 可 以 看 到 如 图 6-50 
所 示 的 信息 。 

最 后 单 击 “*Upload Table” 按 钮 ,并 等 待 操作 完成 即 可 。 同 样 地 ,对 geolocation. csv 表 完 
成 一 遍 上 述 的 操作 。 

继续 下 一 步 操作 , 回 到 “Query” 选 项 卡 , 单 击 刷新 按钮 和 鳄 后 ,在 上 述 步 骤 没 有 出 现 问题 
的 情况 下 ,我 们 应 该 可 以 看 到 在 Databases default 下 已 经 存在 了 两 个 表 : trucks 以 及 
geolocation, ,如 图 6-51 所 示 。 

然后 ,我们 在 Worksheet 中 执行 如 下 命令 创建 表 truck_mileage, 它 记录 了 卡车 在 某 个 
时 间 点 的 行驶 路 程 ,油耗 以 及 MPG( 一 加 仑 油 能 够 行驶 多 少 英 里 ) 。 
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Hive Query Saved Queries History — UDFs Upload Table 


Upload from Local (C Upload fom HOFS @ 
Juset/admin/dataftucks. csv 
File type csv ~ & HDFS Path 
Preview 
Database default - Table name trucks 
Stored as. ORC ba Contains endlines? M 
driverid truckid model jun13_miles 
smwo ~ smmo ~ smwo - m ~ 
^ ^ Freightliner s217 
2 2 Ford 12058 
^3 ^3 Ford 13652 
M ^ Kenworth 12887 
^5 ^5 Hino 10033 
^b ^b Caterpillar. 14488. 
图 6-50 上 传 表 
Datab 
Bdefault 
Sigeolocation 
Sitrucks 
图 6-51 数据 表 
CREATE TABLE truck mileage 
STORED AS ORC AS 
SELECT truckid, driverid, rdate, miles, gas, miles / gas mpg 
FROM trucks 


LATERAL VIEW stack(54, 'jun13', jun13 miles, jun13 gas, 'may13',mayl3 miles 

,mayl3 gas, aprl3',aprl3 miles,apr13 gas, marl3',marl3 miles,marl3 gas 

, feb13',feb13 miles,feb13 gas, 'jan13', jan13 miles, jan13 gas, 'dec12" 

,decl2 miles, decl2 gas, 'novi12',nov12 miles,nov12 gas, 'octi2',octl2 miles 

,Octl2 gas, 'sepl2',sepl2 miles,sepl2 gas, 'augl2',augl2 miles,augl2 gas 

， 'ju112', ju112 miles, ju112 gas, 'jun12', jun12 miles, jun12, gas, 'may12' 

,mayl2 miles,mayl2 gas, 'aprl2',aprl2 miles,aprl2 gas, marl2',marl2 miles 
,marl2 gas, 'feb12', feb12_miles, feb12_gas, 'jan12',jan12 miles, janl2 gas 
,'decll',decll miles,decll gas, 'novll',novll miles,novll gas, 'octll' 

,Octll miles,octll gas, 'sepll',sepll miles,sepll gas, augll',augll miles 
,augli gas, 'julll',julll miles, julll gas, 'junll', jun11 miles, junll gas, 'may11' 
,mayll miles,mayll gas, 'aprll',aprll miles,aprll gas, marll',marll miles 
,marll gas, febll',febll miles,febll gas, 'janll',janll miles, janll gas 
,'decl0',deci0 miles, dec10 gas, 'novi10',novi0 miles,nov10 gas, ‘oct10' 

,Octl0 miles,octlO gas, 'sep10', sep10_miles, sep10_gas, augi0',auglO0 miles 
,augl0 gas, 'jul10', jul10 miles, jullO gas, 'jun10', jun10 miles, junlO gas, 'maylO" 
,maylO0 miles,maylO gas, 'apr10', apr10_miles, apr10_gas, marl0',marl0 miles 

,marl0 gas, 'febl0',feb10 miles, feblO0 gas, 'jan10', jan10 miles, jan10 gas 


Uplond Tatie 
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, ‘dec09',dec09_miles,dec09_gas, 'nov09',nov09 miles,nov09 gas, ‘oct09' 
,oct09_miles, oct09_gas, 'sep09', sep09_miles, sep09_gas, 'aug09',aug09_miles 
,aug09 gas, 'julO9', jul09 miles, jul09_gas, 'jun09', jun09 miles, jun09_gas 
,'may09',may09 miles,may09 gas, 'apr09',apr09 miles,apr09 gas, 'mar09' 
,mar09 miles,mar09 gas, 'feb09',feb09 miles,feb09 gas, 'jan09',jan09 miles 
,jan09 gas ) dummyalias AS rdate, miles, gas; 


最 后 ,我们 分 别 通过 下 面 的 命令 生成 表 avg_mileage, # DriverMileage 和 表 riskfactor. 
K avg_mileage 和 表 DriverMileage 分 别 记录 每 辆 卡车 的 平均 MPG 以 及 行驶 总 路 程 , 表 
riskfactor 记录 每 个 司机 的 行驶 危险 度 。 


CREATE TABLE avg mileage 

STORED AS ORC 

AS 

SELECT truckid, avg(mpg) avgmpg 
FROM truck mileage 

GROUP BY truckid; 


CREATE TABLE DriverMileage 

STORED AS ORC 

AS 

SELECT driverid, sum(miles) totmiles 
FROM truck mileage 

GROUP BY driverid; 


CREATE TABLE riskfactor (driverid string, events bigint, totmiles double, riskfactor float) 
STORED AS ORC; 
3) Pig 进行 危险 度 计 算 
在 使 用 Pig 之 前 ,我们 应 该 还 记得 前 面 的 "Files View” Al“ Hive View”, 我 们 会 发 现 这 里 
并 没有 “Pig View”, 通 过 下 面 的 步骤 即 可 创建 “Pig View": 
CD Ait Effi aama | 用 户 下 拉 菜 单 里 的 “Manager Ambari”; 
(2) 依次 单 击 “Views” 一 “Pig” 一 “Create Instance”, 然 后 填写 相关 信息 ,可 以 参考 
图 6-52。 
Details 
Instance Name Pig Instance 
Display Name* ^ Pig View 


Description* This is Pig View 


Iv Visible 


图 6-52 Pig Instance 信息 
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然后 我 们 就 可 以 发 现 原 下 拉 菜 单 里 已 经 有 了 想 要 的 “Pig View”, 单 击 进入 后 接着 单 击 
右上 角 的 “New Script” 按 钮 ,输入 名 字 ( 自 行 取 名 即 可 ) 之 后 单 击 “Create” 按 钮 完成 文件 创 


建 ,接着 输入 内 容 如 下 。 
a = LOAD 'geolocation' using org. apache. hive. hcatalog. pig. HCatLoader(); 
b = filter a by event !- 'normal'; 
C = foreach b generate driverid, event, (int) 'l' as occurance; 
d 7 group c by driverid; 
e = foreach d generate group as driverid, SUM(c. occurance) as t occ; 
g = LOAD 'drivermileage' using org. apache. hive. hcatalog. pig. HCatLoader( ) ; 
h = join e by driverid, g by driverid; 


final data = foreach h generate $0 as driverid, $1 as events, (double) $3 as totmiles, 
(float) $3/$1 as riskfactor; 
store final data into 'riskfactor' using org. apache. hive. hcatalog. pig.HCatStorer(); 


从 上 述 Pig 命令 可 以 看 出 ,危险 度 计 算 其 实 是 简单 地 以 riskfactor— totmiles/events ff 
为 衡量 , 即 总 的 行驶 路 程 除去 非 正 常 驾 驶 的 事件 数 就 得 出 了 司机 的 驾驶 危险 度 。 

然后 在 右 下 方 添加 上 参数 “-useHCatalog”, 并 勾 选 上 方 的 “Execute Tez” 选 项 ,最 后 单 
击 “Execute” 按 钮 等 待 作业 执行 即 可 ,如 图 6-53 所 示 。 


Script History 


riskfactorpig # b Ework or Rz 


PIG beper +| UDF leper ~ 


1 a= LOAD ‘geolocation’ using org. apache. hive. hcatalor. pig. HCatLoader Ô) ; 
lter a by event != ‘normal’; 


reach b generate driverid, event, (int) ‘1’ as occurance; 

onp c by driverid; 

e = foreach d generate group as driverid, SUNÍc.occurauce) as t occ: 

LOAD ' deivermi lenge’ using org. apache hive, hcatalog. pig.HCatLonder () ; 

Tz join e by driverid, g by driverid; 

9 fimaldata = foreach h generate $0 as driverid, $1 as events, (double) $3 as totmiles, (float) $3/$1 as riskfactor; 
9 store final data into ‘riskfactor’ using org. apache. hive. hcatalor. pig.HCatStorer() ; 


Arguments 


Pig argument 十 Add 


6-53 ”准备 执行 riskfactor. pig 


作业 执行 完毕 之 后 ,原本 的 空 表 riskfactor 现在 已 经 导入 了 相应 数据 ,可 自行 到 “Hive 
View” 中 执行 相关 指令 查看 。 
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4) Zeppelin 进行 数据 可 视 化 
这 一 步 非常 简单 ,首先 在 浏览 器 地 址 栏 输 入 “http://hostIP:9995”, 此 处 的 hostIP 代表 
Zeppelin 所 在 主机 的 IP 地 址 ,输入 后 即 可 转 到 如 图 6-54 所 示 界 面 。 


@ Zeppelin » 


Welcome to Zeppelin! 


图 6-54 Zeppelin 主 界面 


然后 单 击 “Create new note” 按 钮 并 输入 名 字 后 ,我 们 可 以 看 到 一 个 类 似 Jupyter ff T. 
作 界 面 ,直接 输入 如 下 所 示 命 令 并 执行 即 可 看 到 如 图 6-55 所 示 信 息 。 


ee Wve) moe Dt WO 
BRLICT Pn rssrfactor 


Orr 


factordriventd Teaoreven tiskfoctorsotmites isktoctorsiskfactor 4 
at 3 Er] mama 
Am 5 e537 DT 
Al CEJ 150505 
An [7] 1204904 
ala CE [77] 
A DE 16357975 
E 649,645 108374 164 
E 51,08 106,506 
ri Dr mæn u 


图 6-55 ”表格 式 输出 


我 们 之 前 说 过 数据 的 可 视 化 展示 ,其实 很 简单 , 单 击 命令 行 下 面 的 不 同 按钮 即 可 出 现 不 
同 的 图 形 化 展示 ,如 图 6-56 所 示 。 


"T 


ew [a |>] setings e 


n, €um One grece 


| a AEN ATT | 


图 6-56 数据 可 视 化 
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到 这 里 , 便 意 味 着 实践 的 结束 ,回顾 一 下 ,我们 在 案例 中 接触 到 了 HDFS、Hive 等 服务 
工具 ,其 实 大 数据 分 析 技 术 生 态 圈 是 十 分 庞大 的 ,而 HDP 平台 也 包含 了 各 种 各 样 的 服务 组 
件 , 将 这 些 组 件 有 机 地 结合 使 用 起 来 ,可 以 让 我 们 更 从 容 地 应 对 各 个 领域 的 数据 挑战 。 


6.4.3 HadoopDB 


HadoopDB 是 由 美国 耶鲁 大 学 计算 机 科学 教授 Daniel J. Abadi 及 其 团队 推出 的 开源 
并 行 数 据 库 。HadoopDB 是 一 个 Mapreduce 和 传统 关系 型 数据 库 的 结合 方案 ,以 充分 利用 
RDBMS 的 性 能 和 Hadoop 的 容错 、 分 布 特性 。 采 用 了 许多 不 同 的 开源 组 件 , 包 括 开 源 数据 
JE „PostgreSQL, Apache Hadoop 技术 和 Hive 等 。 

1. HadoopDB 原理 

HadoopDB 旨 在 结合 MapReduce 的 可 扩展 性 优势 和 并 行 数据 库 的 性 能 、 效 率 优势 ,以 
管理 和 分 析 大 数据 。HadoopDB 背后 的 基本 思想 是 ,连接 多 个 单 节 点 数据 库 系 统 
(PostgreSQL) ,使 用 Hadoop 作为 任务 协调 者 和 网 络 通信 层 ; 查询 用 SQL 表达 ,但 是 其 执 
行 是 使 用 MapReduce 框架 跨 节 点 并 行 化 的 ,以 便 将 单一 查询 工作 尽 可 能 推送 到 相应 的 节点 
数据 库 中 。 

因为 集 两 种 技术 的 精华 于 一 身 ,HadoopDB 可 以 取得 MapReduce 等 大 规模 并 行 数据 基 
础 设施 的 容错 性 。 在 这 些 基 础 设施 中 ,服务 器 故障 对 整个 网 络 的 影响 非常 小 。HadoopDB 
可 以 执行 复杂 的 分 析 ,速度 几乎 与 已 有 的 商用 并 行 数据 库 一 样 快 。 

HadoopDB 的 基本 原理 是 利用 Hadoop 来 存 取 部 署 在 集群 上 多 个 单一 节点 上 的 DBMS 
服务 器 (如 PostgreSQL 或 MySQL)。 通 过 发 起 SQL 查询 ,HadoopDB 将 尽 可 能 多 的 数据 
处 理 推 给 数据 库 引 擎 来 进行 (通常 情况 下 ,大 部 分 的 映射 /组 合 -Map/Combine 阶段 的 逻辑 
可 以 用 SQL 来 表达 )。 这 样 就 创建 了 一 个 类 似 于 无 共享 并 行 数据 库 的 系统 。 应 用 从 数据 库 
世界 得 到 的 技术 大 大 提升 了 性 能 ,特别 是 在 更 复杂 的 数据 分 析 上 。 同 时 ,HadoopDB 依赖 于 
MapReduce 框架 的 事情 确保 了 系统 在 高 可 扩展 性 和 容错 、 异 构 性 (heterogeneity) 方 面 的 效 
果 与 Hadoop 类 似 。 

2. HadoopDB 总 体 架构 


如 图 6-57 所 示 , 作 为 一 个 混合 的 系统 , HadoopDB 主要 由 HDFS, MapReduce, SMS 
Planner, DB Connector 等 部 分 构成 。HadoopDB 的 核心 框架 还 是 Hadoop, 具 体 就 是 存储 层 
HDFS 和 处 理 层 MapReduce。 关 于 HDFS 上 namenode,datanode 各 自 处 理 任务 ,数据 备份 
存储 机 制 以 及 MapReduce 内 master-slave 架构 ,jobtracker 和 tasktracker 各 自 的 工作 机 制 
和 任务 负载 分 配 ,数据 本 地 化 特性 等 内 容 就 不 详细 介绍 了 。 下 面 对 主 要 构成 部 件 作 简单 
介绍 : 

(1) Databae Connector: 承担 的 是 node 上 独立 数据 库 系统 和 TaskTracker 之 间 的 接 
口 。 图 中 可 以 看 到 每 个 single 的 数据 库 都 关联 一 个 datanode 和 一 个 tasktracker。 它 传输 
SQL 语句 ,得 到 一 些 KV 返回 值 。 扩 展 了 Hadoop 的 InputFormat, 实 现 与 MapReduce HE 
架 的 无 缝 拼接 。 

(2) Catalog: 维持 数据 库 的 元 数据 信息 。 包 括 两 部 分 : 数据 库 的 连接 参数 和 元 数据 ， 
如 集群 中 的 数据 集 、 复 本 位 置 数据 分 区 属性 。 现 在 是 以 XML 来 记录 这 些 元 数据 信息 的 。 
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SQL Query 
MapReduce Job SMS PI 
lanner 
MapReduce 
Hadoopcore -Nb 
| Master node MapReduce 
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HDFS Framework 
| NameNode | | JobTracker J 


1 Node I TNode2 — 1 
| TaskTracker | ( TaskTracker } | 
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i) 
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图 6-57  HadoopDB 架构 
由 JobTracker 和 Task Tracker 在 必要 的 时 候 来 获取 相应 信息 。 


(3) Data Loader: 主要 职责 涉及 根据 给 定 的 分 区 key 来 装载 数据 ,对 数据 进行 分 区 。 
包含 自身 两 个 主要 Hasher: Global Hasher 和 Local Hasher。 简 单 地 说 ,Hasher 无 非 是 为 
了 让 分 区 更 加 均衡 。 

(4) SMS Planner; SMS 是 SQL to MapReduce to SQL 的 缩写 。HadoopDB 通过 使 它 
们 能 执行 SQL 请 求 来 提供 一 个 并 行 化 数据 库 前 端 做 数据 处 理 。SMS 扩展 了 Hive。 关 于 
Hive 编者 在 这 里 不 展开 介绍 了 。 总 之 是 关于 一 种 融入 MapReduce job 内 的 SQL 的 变种 语 
言 ,来 连接 HDFS 内 存放 文件 的 table。 

3. HadoopDB 优 缺 点 

HadoopDB 的 优点 有 : (1) 结 合 Hive 对 SQL 强大 的 支持 并 直接 生成 map/reduce ff 
务 ,不 需要 再 手动 编写 map/reduce 程序 ; (2) 利 用 关系 数据 库 查 数据 则 又 是 利用 单 节点 的 
性 能 优势 ; (3) 利 用 Hadoop 所 具有 的 高 容错 性 、 高 可 用 性 以 及 对 于 高 通 量 计算 的 性 能 优 
越 性 。 

HadoopDB 的 缺点 有 : (1) 如 果 不 想 手动 编写 map/reduce 程序 , 则 只 能 查询 的 SQL if 
句 的 数据 来 源 不 能 来 自 多 张 表 ,原因 是 因为 它 目 前 只 相当 对 一 个 数据 库 的 多 个 分 块 并 行 查 
询 , 所 以 不 能 做 到 多 分 块 的 数据 关系 处 理 。 当 然 为 了 实现 多 表 join, 可 手动 改造 
InputFormat 以 实现 ; (2) 其 数据 预 处 理 代价 过 高 : 数据 需要 进行 两 次 分 解 和 一 次 数据 库 加 
载 操 作 后 才能 使 用 ; (3) 将 查询 推 向 数据 库 层 只 是 少数 情况 ,大 多 数 情 况 下 ,查询 仍 由 Hive 
完成 。 因 为 数据 仓库 查询 往往 涉及 多 表 连 接 , 由 于 连接 的 复杂 性 ,难以 做 到 在 保持 连接 数据 
局 部 性 的 前 提 下 将 参与 连接 的 多 张 表 按照 某 种 模式 划分 ;(4) 维 护 代价 过 高 。 不 仅 要 维护 
Hadoop 系统 ,还 要 维护 每 个 数据 库 节 点 ;(5) 目 前 尚 不 支持 数据 的 动态 划分 ,需要 手工 一 次 
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划分 好 。 

4. HadoopDB 的 商业 化 平台 Hadapt 

Hadapt 是 商业 化 的 HadoopDB 平台 。Hadapt 是 一 个 自 适应 数据 分 析 平 台 ,结合 了 
Hadoop 和 关系 数据 库 管 理 软件 的 优点 成 为 一 个 单独 的 数据 平台 。 其 成 果 就 是 一 个 高 性 能 
分 析 系 统 , 对 结构 化 和 非 结 构 化 数据 都 能 很 好 处 理 。Hadapt 为 Apache Hadoop 开源 项 目 
WRT SQL 实现 。 通 过 其 合并 了 关联 数据 存储 的 混合 存储 层 , Hadapt 允许 进行 基于 SQL 
大 数据 集 的 交互 分 析 。Hadapt 可 以 在 Hadoop 层 和 关系 数据 库 层 之 间 自 动 划 分 查询 执行 
任务 ,提供 了 Hadapt 所 谓 的 优化 环境 ,这 种 环境 可 以 充分 利用 Hadoop 的 可 扩展 性 和 关系 
数据 库 技术 的 快速 度 。 从 技术 上 看 ,Hadapt 是 一 种 高 性 能 的 自 适应 数据 分 析 平 台 ,其 分 层 
体系 结构 如 图 6-58 所 示 ,最 底层 为 混合 存储 引擎 (Hybrid Storage Engine) ,支持 非 结 构 化 
的 分 布 式 文件 存储 和 高 性 能 的 结构 化 数据 存储 ; 然后 是 Hadoop 和 自 适应 查询 执行 层 , 支 
持 容错 和 负载 均衡 查询 ,并 实现 了 高 效 的 分 布 式 和 云 优化 查询 技术 ; 接着 是 交互 式 查询 层 
和 开发 工具 层 ; 最 上 层 是 灵活 查询 接口 层 , 支 持 SQL, MapReduce fll ODBC/JDBC 访问 
接口 。 


"SQL 
* MapReduce 
*ODBC/JDBC 


* Advanced SQL Analytic Functions 


* Interactive Query Processing 


Query Fault Tolerance & Load Balancing 
e Optimized for the Cloud 
* Patent-Pending Split Query Execution Technology 


* High-Performance Relational Engine for Structured Data 
* Hadoop Distributed File System for Unstructured Data 


图 6-58 Hadapt 的 体系 结构 


6.5 大 数据 并 行 计 算 编 程 实践 


6.5.1 基于 MAPREDUCE 程序 实例 (HDFS) 


本 例 基 于 Eclipse 3. 7. 2 Indigo 和 Hadoop 1.2.1 组 成 的 环境 。 

1. 配置 Eclipse 环境 与 Hadoop-eclipse-plugin 插件 

Hadoop 的 Eclipse 插件 有 助 于 导入 Hadoop 所 需 的 依赖 包 并 且 用 户 可 以 远程 调试 
MapReduce 程序 ,但 是 由 于 是 Hadoop 下 面 的 一 个 contribution 的 项 目 , 所 以 很 久 都 没有 维 
护 和 更 新 ,因此 只 支持 Eclipse 4. 0. 0 以 下 版 本 (不 包括 4. 0. 0) 而 且 需 要 用 户 进行 编译 
Hadoop 的 Eclipse 插件 。 读 者 可 以 自行 查找 插件 编译 方法 ,本 书 不 再 袭 述 。 
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(D 将 Hadoop 的 eclipse 插件 包 放 和 人 Eclipse 的 plugin 目录 。 

(2) 启动 Eclipse, 设 置 Hadoop 的 Home Directory, 这 里 的 Home Directory 并 不 是 用 
于 运行 Hadoop 程序 的 环境 而 只 是 用 户 导 入 MapReduce 工程 的 依赖 包 。 

(3) 添加 MapReduce 集群 设置 。 

如 图 6-59, 这 里 配置 好 MapReduce 以 及 HDFS 的 Master 地 址 和 端口 。 注 意 要 与 远程 
的 集群 上 的 配置 相同 。MapReduce 的 Master 地 址 端口 要 与 mapred-site. xml 中 的 
JobTracker 地 址 端口 一 致 , HDFS 的 Master 端口 地 址 要 与 core-site. xml 中 的 fs. default 
.name 中 的 地 址 端口 一 致 。 


Define Hadoop location 
Define the location of a Hadoop infrastructure for running MapReduce applications. 


General | Advanced parameters. 


Location name: [Hadoop 


Map/Reduce Master DFS Master 
Host: [Master 回 Use M/R Master host 
Host: Master 


Port (50020 Por: [50080 


User name: | Jim 
SOCKS proxy 
C Enable SOCKS proxy 
Host: host 
Port 1080 


Load from file Validate location 


[o] 


图 6-59 添加 MapReduce 集群 设置 


(4) 创建 MapReduce 工程 

如 图 6-60 所 示 , 按 需 要 填写 工程 的 名 称 单 击 Finish 完成 创建 。 

(5) 运行 MapReduce 程序 

选择 包含 MapReduce 程序 的 Main 函数 的 类 并 右键 选择 Run on Hadoop, 在 弹出 的 对 
话 框 中 选择 刚刚 建立 好 的 Hadoop 连接 即 可 在 远程 集群 上 面 运行 MapReduce 程序 ,如 图 6-61 
所 示 。 

2. 特别 的 数据 类 型 介绍 

Hadoop 提供 了 如 下 内 容 的 数据 类 型 ,这 些 数 据 类 型 都 实现 了 WritableComparable 接 
口 ,以 便 用 这 些 类 型 定义 的 数据 可 以 被 序列 化 进行 网 络 传输 和 文件 存储 ,以 及 进行 大 小 
比较 。 


BooleanWritable: 标准 布尔 型 数值 
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MapReduce Project 
Createa MapReduce project 


Project name: | WordCoun 


[V] Use default location. 
Location: D:\WorkSpace\WordCount 
Hadoop MapReduce Library Installation Path 
(€) Use default Hadoop 
O Specify Hadoop library location 


| Run As 
Debug As 
Team 
Compare With 


Select Hadoop location 
Select a Hadoop location to run on. 


Select a Hadoop Server to run on. 
O Define a new Hadoop server location 
© Choose an existing server from the list below 


Location. Master host name 
Cluster. 192.168.13.160 


图 6-61 运行 MapReduce 程序 


ByteWritable: 单字 节 数 值 
DoubleWritable; 双 字 节 数 
FloatWritable: 浮 点 数 
IntWritable: 整 型 数 
LongWritable: 长 整 型 数 

Text; 使 用 UTFS 格式 存储 的 文本 
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NullWritable; 当 < key. value > 中 的 key 或 value 为 空 时 使 月 
3. 基于 新 API 的 WordCount 2 fir 
D 源 代码 程序 


public class WordCount { 
public static class TokenizerMapper 
extends Mapper < Object, Text, Text, IntWritable>{ 
private final static IntWritable one = new IntWritable(1); 
private Text word = new Text(); 
public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException { 
StringTokenizer itr = new 
StringTokenizer(value. toString()); 
while (itr. hasMoreTokens()) { 
word. set( itr. nextToken() ) 7 
context. write(word, one); 


} 
} 
public static class IntSumReducer 
extends Reducer < Text, IntWritable, Text, IntWritable> { 
private IntWritable result - new IntWritable(); 
public void reduce(Text key, Iterable< IntWritable> values, Context context) 
throws IOException, InterruptedException ( 
int sum - 0; 
for (IntWritable val : values) { 
sum += val.get(); 
) 
result.set(sum); 
context. write(key, result); 


) 
public static void main(String[] args) throws Exception ( 
Configuration conf - new Configuration(); 
String[] otherArgs - new GenericOptionsParser(conf, args).getRemainingArgs(); 
if (otherArgs. length != 2) { 
System. err. println("Usage: wordcount < in><out>"); 
System. exit(2); 
} 
Job job = new Job(conf, "word count") ; 
job. setJarByClass(WordCount. class) ; 
job. setMapperClass(TokenizerMapper. class); 
job. setCombinerClass(IntSumReducer. class); 
job. setReducerClass(IntSumReducer. class); 
job. setOutputKeyClass(Text. class); 
job. setOutputValueClass(IntWritable. class); 
FileInputFormat. addInputPath( job, new Path(otherArgs[0])); 
FileOutputFormat. setOutputPath(job, new Path(otherArgs[1])); 
System. exit( job. waitForCompletion(true) ? 0 : 1); 
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2) Map 过 程 


public static class TokenizerMapper 
extends Mapper < Object, Text, Text, IntWritable>{ 
private final static IntWritable one - new IntWritable(1); 
private Text word = new Text(); 
public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException { 
StringTokenizer itr = new StringTokenizer(value. toString()); 
while (itr. hasMoreTokens()) { 
word, set( itr. nextToken()) ; 
context. write(word, one); 


} 


Map 过 程 需要 继承 org. apache. Hadoop. MapReduce 包 中 Mapper 类 ,并 重 写 其 map 
方法 。 通 过 在 map 方法 中 添加 两 句 把 key 值 和 value 值 输出 到 控制 台 的 代码 ,可 以 发 现 
map 方法 中 value 值 存储 的 是 文本 文件 中 的 一 行 ( 以 回 车 符 为 行 结束 标记 ) ,而 key 值 为 该 行 
的 首 字 母 相对 于 文本 文件 的 首 地 址 的 偏 移 量 。 然 后 StringTokenizer 类 将 每 一 行 拆 分 成 为 一 个 
个 的 单词 ,并 将 < word,1 > 作为 map 方法 的 结果 输出 ,其 余 的 工作 都 交 由 MapReduce 框架 
处 理 。 

3) Reduce 过 程 


public static class IntSumReducer 
extends Reducer < Text, IntWritable, Text, IntWritable> { 
private IntWritable result = new IntWritable(); 
public void reduce(Text key, Iterable< IntWritable > values, Context context) 
throws IOException, InterruptedException { 
int sum = 0; 
for (IntWritable val : values) { 
sum += val.get(); 
} 
result. set( sum); 
context. write(key, result); 


} 


Reduce 过 程 需要 继承 org. apache. Hadoop. MapReduce 包 中 Reducer 类 ,并 重 写 其 
reduce 方法 。Map 过 程 输出 < key. values > 中 key 为 单个 单词 ,而 values 是 对 应 单词 的 计数 
值 所 组 成 的 列表 ,Map 的 输出 就 是 Reduce 的 输入 ,所 以 reduce 方法 只 要 遍历 values 并 求 
和 , 即 可 得 到 某 个 单词 的 总 次 数 。 

4) 执行 MapReduce 任务 

public static void main(String[] args) throws Exception { 


Configuration conf - new Configuration(); 
String[] otherArgs - new GenericOptionsParser(conf, args).getRemainingArgs(); 
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if (otherArgs. length != 2) { 
System. err. println("Usage: wordcount < in><out>"); 
System. exit(2); 

} 

Job job = new Job(conf, "word count"); 

job. setJarByClass(WordCount. class) ; 

job. setMapperClass(TokenizerMapper. class) ; 

job. setCombinerClass( IntSumReducer. class); 

job. setReducerClass(IntSumReducer. class); 

job. setOutputKeyClass(Text. class); 

job. setOutputValueClass(IntWritable. class); 

FileInputFormat. addInputPath( job, new Path(otherArgs[0])); 

FileOutputFormat. setOutputPath(job, new Path(otherArgs[1])); 

System. exit(job.waitForCompletion(true) ? 0 : 1); 

} 


在 MapReduce 中 ,由 Job 对 象 负责 管理 和 和 运行 一 个 计算 任务 ,并 通过 Job 的 一 些 方法 
对 任务 的 参数 进行 相关 的 设置 。 此 处 设置 使 用 了 TokenizerMapper 完成 Map 过 程 中 的 处 
理 和 使 用 IntSumReducer 完成 Combine 和 Reduce 过 程 中 的 处 理 。 还 设置 了 Map 过 程 和 
Reduce 过 程 的 输出 类 型 : key 的 类 型 为 Text. value 的 类 型 为 IntWritable。 任 务 的 输出 和 
输入 路 径 则 由 命令 行 参数 指定 ,并 由 FileInputFormat 和 FileOutputFormat 分 别 设 定 。 完 
成 相应 任务 的 参数 设 定 后 , 即 可 调用 job. waitForCompletion( ) 方 法 执行 任务 。 

4. WordCount 处 理 过 程 

这 里 将 对 WordCount 进行 更 详细 的 讲解 。 详 细 执 行 步骤 如 下 : 

(1) 将 文件 拆 分 成 splits, 由 于 测试 用 的 文件 较 小 ,所 以 每 个 文件 为 一 个 split, 并 将 文件 
按 行 分 割 形成 < key. value > 对 ,如 图 6-62 所 示 。 这 一 步 由 MapReduce 框架 自动 完成 ,其 中 
偏 移 量 ( 即 key 值 ) 包 括 了 回 车 所 占 的 字符 数 (Windows 和 Linux 环境 会 不 同 ) 。 


输入 数据 分 割 结果 
Hello World i "^ 
= (0, “Hello World") 
Bye World 分 害 (12, "Bye World") 
"uli cem 
Hello Hadoop (0, “Hello Hadoop”) 
Bye Hadoop Ars (13, “Bye Hadoop”) 
<2 > 
图 6-62 分割 过 程 


(2) 将 分 割 好 的 < key,value > 对 交 给 用 户 定 义 的 map 方法 进行 处 理 , 生 成 新 的 < key, 
value > 对 ,如 图 6-63 Bros o 

(3) 得 到 map 方法 输出 的 < key. value > 对 后 ,Mapper 会 将 它们 按照 key 值 进行 排序 ， 
并 执行 Combine 过 程 ,将 key 至 相同 value 值 累加 ,得 到 Mapper 的 最 终 输 出 结果 ,如 图 6-64 
所 示 。 

(4) Reducer 先 对 从 Mapper 接收 的 数据 进行 排序 ,再 交 由 用 户 自 定义 的 reduce 方法 进 


305 


ay 云 计 算 与 大 数据 技术 理论 及 应 用 


分 割 结 果 map 方 法 输出 
(Hello, 1) 
(0, “Hello World”) (World, 1) 
(12, “Bye World") [mag > "s 1 b 
World, 1 
(Hello, 1) 
(0, “Hello Hadoop”) (Hadoop. 1) 
(13, “Bye Hadoop”) [maj > (Bye, 1) ) 
Hadoop, 1 
图 6-63 执行 map 方法 
map 方 法 输出 排序 结 Combine 答 出 
(Hello, 1) (Bye, (Bye, 1) 
(World, 1) Eg (Hello, 1 =- K 
(Bye, 1) MaE | 《wond 1) [Combine] FE» {tel 1 ) 
(World, 1) (World, 1) a 
(Hello, p^ (Bye. 1) ; (Bye, 1) 
(Hadoop, 1 mr | (Hadoop, 1 —À2i : 
(Bye, 1) Map 端 排序 《Hadoop 1) [Combine FE» oec 
(Hadoop, 1) (Hello, 1) ES 


图 6-64 排序 并 执行 Combine 


行 处 理 , 得 到 新 的 < key. value > 对 ,并 作为 WordCount 的 输出 结果 ,如 图 6-65 所 示 o 
Combine 输 出 


排序 结果 Reduce 输 出 
(Bye, 1) 
(Hello, 1) 
(World, 2) (Bye, list(1, 1)) (Bye, 2) 
(Hadoop. list(2)) (Hadoop, 2) 
Reduce TP | (Hello fis], 1)) [reus > (Hello, 2) 
(Bye, 1) (World, list(2)) (World, 2) 
(Hadoop, 2) 
(Hello, 1) 


图 6-65 Reduce 端 排序 及 输出 结果 
5. MapReduce 新 旧 改 变 


(1) Hadoop 最 新 版 本 的 MapReduce Release 0. 20. 0 的 API 包括 了 一 个 全 新 的 
Mapreduce Java API, 有 了 时候 也 称 为 上 下 文 对 象 。 


(2) 新 的 API 类 型 上 不 兼容 以 前 的 API, 所 以 ,以 前 的 应 用 程序 需要 重 写 才 能 使 新 的 
API 发 挥 其 作用 。 


G) 新 的 API 和 旧 的 API 之 间 有 下 面 几 个 明显 的 区 别 。 


(4) 新 的 API 倾向 于 使 用 抽象 类 ,而 不 是 接口 ,因为 这 更 容易 扩展 。 例 如 ,可 以 添加 一 


个 方法 (用 默认 的 实现 ) 到 一 个 抽象 类 而 不 需 修改 类 之 前 的 实现 方法 。 在 新 的 API 中 ， 
Mapper 和 Reducer 是 抽象 类 。 
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(5) 新 的 API 是 在 org. apache. Hadoop. MapReduce 包 ( 和 子 包 ) 中 的 。 之 前 版 本 的 
API 则 是 放 在 org. apache. Hadoop. mapred 中 的 。 

(6) 新 的 API 广 泛 使 用 context object( 上 下 文 对 象 ), 并 允许 用 户 代 码 与 MapReduce 
系统 进行 通信 。 例 如 ,MapContext 基本 上 充当 着 JobConf 的 OutputCollector 和 Reporter 
的 角色 。 

(7) 新 的 API 同时 支持 “ 推 ? 和 *“ 拉 ” 式 的 迭代 。 在 这 两 个 新 老 API 中 , 键 / 值 记录 对 被 
HE mapper 中 ,但 除 此 之 外 ,新 的 API 允许 把 记录 从 map() 方 法 中 拉 出 ,这 也 适用 于 
reducer。“ 拉 ” 式 的 一 个 有 用 的 例子 是 分 批 处 理 记录 ,而 不 是 一 个 接 一 个 。 

(8) 新 的 API 统一 了 配置 。 旧 的 API 有 一 个 特殊 的 JobConf 对 象 用 于 作业 配置 ,这 是 
一 个 对 于 Hadoop 通常 的 Configuration 对 象 的 扩展 。 在 新 的 API 中 ,这 种 区 别 没有 了 ,所 
以 作业 配置 通过 Configuration 来 完成 。 作 业 控 制 的 执行 由 Job 类 来 负责 ,而 不 是 
JobClient, 它 在 新 的 API 中 已 经 荡然 无 存 。 

6. Hadoop 执行 MapReduce 程序 

将 编写 好 的 MapReduce 程序 用 Eclipse 自 带 的 打包 功能 构建 成 jar 包 , 并 把 需要 的 第 三 
Ji jar 包 放 在 lib 目录 下 一 并 打包 。 

在 正常 运行 的 集群 上 的 任意 节点 上 的 Hadoop 根 目 录 运 行 bin/hadoop jar WordCount. jar 
Wordcount input output。 其 中 第 一 个 参数 为 调用 hadoop 中 的 jar 命令 ,第 二 个 参数 为 打包 
好 的 jar 包 的 位 置 ,第 三 个 参数 为 jar 包 中 的 完整 的 类 名 , 需 包 括 类 所 在 的 package。 之 后 的 
参数 作为 MapReduce 程序 中 main 函数 的 参数 传递 给 main 函数 。 


6.5.2 基于 MAPREDUCE 程序 实例 (HBase) 


1. 配置 Eclipse 开发 环境 


在 上 一 节 搭 建 好 的 Eclipse 与 Hadoop 插件 环境 的 基础 上 ,添加 HBase、protobuf-java、 
zookeeper 到 MapReduce 工程 的 lib 目录 ,并 将 这 些 jar 包 添 加 到 E 
build path 中 。 在 工程 下 创建 conf 文件 夹 , 如 图 6-66 所 示 ,并 在 其 Soe 


B core-sitexm! 


中 添加 HBase-site. xml 配置 文件 ,配置 文件 可 以 从 集群 上 的 配置 Eas 


log4j.properties 
文件 中 获取 。HBase-site. xml 文件 中 至 少 要 有 一 个 HBase. master Bree 


b GR hbase-0.94.19jar 


配置 项 。 > Gd protobuf-java-240ajar 


b Ga zookeeper-34.5jar 


在 Eclipse 远程 运行 读 写 HBase 的 MapReduce 程序 时 ,需要 把 “ Bf hbese-094.19jar 


上 文 提 到 的 H Base 的 三 个 依赖 包 复制 到 Hadoop 的 lib 目录 ,以 防 et 
止 程序 在 远程 运行 的 时 候 找 不 到 HBase 相关 的 类 。 另 外 ,HBase ` 
ff) lib 目录 下 的 Hadoop-core 文件 版 本 需要 与 Hadoop 的 版 本 对 “图 6-66 配置 Eclipse 
应 ,不 然 会 出 现 无 法 连接 的 情况 。 "mS 

2. 基于 HBase 的 WordCount 实例 程序 1 

本 例 中 是 由 MapReduce 读 取 HDFS 上 的 文件 ,经 过 WordCount 程序 处 理 后 写 入 到 
HBase 的 表 中 。 本 来 采用 新 的 API 代码 ,所 以 Mapper 的 代码 与 上 文中 相同 , Reducer 和 
Main 函数 需要 重新 编写 。 
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下 面 给 出 Reducer 的 代码 实例 : 


public static class IntSumReducer extendsTableReducer 

< Text, IntWritable, ImmutableBytesWritable > { 

private IntWritable result = new IntWritable(); 

public void reduce(Text key, Iterable< IntWritable> values, 
Context context) throws IOException, InterruptedException{ 
int sum = 0; 
for (IntWritable val : values) { 

sum += val. get(); 


} 
result. set(sum) ; 
Put put = new Put(key. getBytes()) ; //put 实例 化 ,每 一 个 词 存 一 行 


// 列 族 为 content, 列 修饰 符 为 count, 列 值 为 数目 
put. add (Bytes. toBytes ("content"), Bytes. toBytes ( " count"), Bytes. toBytes (String. 
valueOf (sum))); 
context. write(new ImmutableBytesWritable(key.getBytes()), put); 
j; 


由 上 面 可 知 IntSumReducer 继承 自 TableReduce, 在 Hadoop HH ifii TableReducer 继承 
Reducer 类 。 它 的 原型 为 : TableReducer<KeyIn,Values,KeyOut >。 可 以 看 出 ,HBase 里 
面 读 出 的 Key 类 型 是 ImmutableBytesWritable, 意 为 不 可 变 类 型 ,因为 HBase 里 所 有 数据 
都 是 用 字符 串 存储 的 。 


public static void main(String[ ] args) throws Exception { 
String tablename = "wordcount"; 
// 实 例 化 Configuration, 注意 不 能 用 new HBaseConfiguration() 了 
Configuration conf = HBaseConfiguration.create(); 
HBaseAdmin admin - new HBaseAdmin(conf); 
if(admin. tableExists(tablename) ) { 
System. out. println("table exists! recreating ..."); 
admin. disableTable(tablename); 
admin. deleteTable(tablename) ; 
} 
HTableDescriptor htd = new HTableDescriptor(tablename) ; 
HColumnDescriptor hcd = new HColumnDescriptor("content"); 
htd. addFamily(hed) ; // 创 建 列 族 
admin. createTable(htd) ; // 创 建 表 
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); 
if (otherArgs.length != 1) { 
System. err. println("Usage: wordcount < in» < out >" + otherArgs. length) ; 
System. exit(2); 
} 
Job job = Job. getInstance(conf, "word count"); 
job. setJarByClass(WordCountHBase. class); 
job. setMapperClass(TokenizerMapper. class); 
// job. setCombinerClass(IntSumReducer.class); 
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FileInputFormat. addInputPath(job, new Path(otherArgs[0])); 
// 此 处 的 TableMapReduceUtil 注意 要 用 Hadoop. HBase. MapReduce 包 中 的 ， 
// 而 不 是 Hadoop. HBase.mapred 包 中 的 
TableMapReduceUtil. initTableReducerJob(tablename, IntSumReducer.class, job); 
//key 和 value 到 类 型 设 定 最 好 放 在 initTableReducerJob 函数 后 面 , 否则 会 报错 
job. setOutputKeyClass(Text. class); 
job. setOutputValueClass(IntWritable. class); 
System. exit( job. waitForCompletion(true) ? 0 : 1); 
} 


在 job 配置 的 时 候 没 有 设置 job. setReduceClass (); 而 是 用 TableMapReduceUtil. 
initTableReducerJob(tablename，IntSumReducer. class. job) ;来 执行 reduce 类。 

需要 注意 的 是 此 处 的 TableMapReduceUtil 是 Hadoop. HBase. MapReduce 包 中 的 ,而 
不 是 Hadoop. HBase. mapred 包 中 的 ,否则 会 报错 。 

3. 基于 HBase 的 WordCount 实例 程序 2 

下 面 介绍 如 何 进 行 读 取 , 读 取 数 据 时 比较 简单 ,编写 Mapper 函数 , 读 取 < key, value > 值 
就 可 以 了 ,Reducer 函数 直接 输出 得 到 的 结果 即 可 。 


public static class TokenizerMapper extends TableMapper < Text, Text >{ 
public void map(ImmutableBytesWritable row, Result values, 
Context context) throws IOException, InterruptedException ( 
StringBuffer sb = new StringBuffer(""); 
for( java. util. Map. Entry < byte[ ], byte[ ] value : 
values. getFamilyMap("content". getBytes()). entrySet())( 
// 将 字 节 数组 转换 成 String 类 型 ,需要 new String(); 
String str = new String(value.getValue()); 
if(str != null){ 
sb. append(new String(value.getKey())); 
sb. append(":"); 
sb. append(str) ; 
} 
context. write(new Text(row. get()), new Text(new String(sb))); 


map 函数 继承 到 TableMapper 接口 ,从 result 中 读 取 查询 结果 。 


public static class IntSumReducer 
extends Reducer < Text, Text, Text, Text > { 
private Text result = new Text(); 
public void reduce(Text key, Iterable < Text values, 
Context context) throws IOException, InterruptedException ( 
for (Text val : values) ( 
result.set(val); 
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context. write(key, result); 


} 


reduce 函数 没有 改变 ,直接 输出 到 文件 中 即 可 。 


public static void main(String[ ] args) throws Exception { 

String tablename = "wordcount"; 

// 实 例 化 Configuration, 注意 不 能 用 new HBaseConfiguration() T 

Configuration conf = HBaseConfiguration.create(); 

String[] otherArgs = new GenericOptionsParser(conf, 

args) . getRemainingArgs() ; 

if (otherArgs. length != 2) { 

System. err. println("Usage: wordcount < in» < out >" + otherArgs. length); 
System. exit(2); 

} 

Job job = Job. getNewInstance(conf, "word count") ; 

job. setJarByClass(ReadHBase. class); 

FileOutputFormat. setOutputPath(job, new Path(otherArgs[1])); 

job. setReducerClass(IntSumReducer. class); 

// 此 处 的 TableMapReduceUtil 注意 要 用 Hadoop. HBase. MapReduce 包 中 的 ,而 不 是 Hadoop. HBase. 

//mapred 包 中 的 

Scan scan = new Scan(args[0]. getBytes()); 

TableMapReduceUtil. initTableMapperJob(tablename, scan, TokenizerMapper. class, 

Text.class, Text.class, job); 

System. exit( job. waitForCompletion(true) ? 0 : 1); 
} 


其 中 如 果 输 入 的 两 个 参数 分 别 是 “aa ouput”, 分 别 是 开始 查找 的 行 (这 里 为 从 “aa” 行 开始 
找 ) 和 输出 文件 到 存储 路 径 ( 这 里 为 存 到 HDFS 目录 到 output 文件 夹 下 )。 

要 注意 的 是 ,在 JOB 的 配置 中 需要 实现 initTableMapperJob 方法 。 与 第 一 个 例子 类 
似 ,在 job 配置 的 时 候 不 用 设置 job. setMapperClass(); 而 是 用 TableMapReduceUtil. 
initTableMapperJob(tablename. scan. TokenizerMapper. class. Text. class. Text. class, 
job) ;来 执行 mapper HK, Scan 实例 是 查找 的 起 始 行 。 

4. Hadoop 执行 读 写 HBase 的 MapReduce 程序 

运行 过 程 与 Hadoop 运行 普通 程序 类 似 。 需 要 特别 注意 的 是 ,需要 把 涉及 到 的 HBase 
的 相关 jar 包 打包 到 程序 jar 包 的 lib HRF. 

运行 控制 台 输出 结果 如 下 : 

13/06/12 03:10:13 INFO input. FilelnputFormat: Total input paths to process : 1 

13/06/12 03:10:17 INFO mapred. JobClient: Running job: job 201306080852 0008 

13/06/12 03:10:18 INFO mapred.JobClient: map 0 & reduce 0% 


13/06/12 03:12:54 INFO mapred.JobClient: map 100% reduce 0% 
13/06/12 03:13:09 INFO mapred.JobClient: map 100% reduce 100% 


13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 
13/06/12 03: 


:17 INFO mapred. JobClient 
:17 INFO mapred. JobClient 
:17 INFO mapred. JcbClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
:17 INFO mapred. JobClient: 
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: Job complete: jab 201306080852 0008 

: Counters: 17 

Job Counters 
Launched reduce tasks = 1 
Launched map tasks = 1 
Data- local map tasks = 1 

FileSystemCounters 
FILE BYTES READ- 33 
HDFS BYTES READ = 56 
FILE BYTES WRITTEN = 98 
HDFS BYTES WRITTEN = 18 

Map - Reduce Framework 
Reduce input groups - 3 
Combine output records - 3 
Map input records - 9 
Reduce shuffle bytes - 33 
Reduce output records - 3 
Spilled Records - 6 
Map output bytes = 63 
Combine input records - 9 
Map output records - 9 


6.5.3 基于 Spark 的 程序 实例 


1. 基于 Scala 的 Spark 程序 开发 环境 搭建 
步骤 1: 安装 Scala, 配 置 环境 变量 。Scala 的 安装 和 环境 变量 配置 与 Java 类 似 ,这 里 不 


再 袭 述 。 


步骤 2: 在 Eclipse "P , [KU 3€ f£" Help"—"Install New Software…”, 在 打开 的 卡 里 填 
入 http: //download. scala-ide. org/sdk/e38/scala29/stable/site. 并 按 回 车 键 , 可 看 到 如 
图 6-67 所 示 内 容 ,选择 前 两 项 进行 安装 即 可 。 


ee 
$ Install 
Available Software 
Check the items that you wish to install. 1 


T [uu Scala 1D 


> [Z] 000 Scala IDE for 
0 Sc 


0 Sources 


ocn Cas | i 

Find more software by working with the “Available Software Sites" preferences. 
pn —ÓÓ " J 
Name Versiol 


development support 
E Tor Echpse Source Feature 
Ii Scala IDE plugins (incubation) 


2 items selected 


图 6-67 选择 要 安装 的 选项 
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步骤 3: 重新 启动 Eclipse, 单 击 eclipse 右上 角 方 框 按钮 ,如 图 6-68 所 示 ,展开 后 , 单 击 
“Other…”, 查 看 是 否 有 “Scala” 一 项 ,如 果 有 ,直接 单 击 打开 。 


图 6-68 查看 是 否 有 “Scala” 


2. 基于 Scala 语言 开发 Spark 程序 


创建 一 个 Scala 文件 ,首先 选择 Properties”, 然 后 在 弹出 的 框 中 ,添加 spark-assembly- 
* .jar 文件 到 Build. Path 中 ,一 般 是 在 Spark 的 lib 目录 下 ,如 图 6-69 所 示 。 


4B Properties for SparkScala me 
mz | dis 
Resource = 
à 
Java Code Style 加 spark-assembly-0.8.1-incubating-hadoop2.2.0j 
Java Compiler mÀ JRE System Library [JavaSE-1.6] 
Java Editor mÀ Scala Library [2.9.3] 
Javadoc Location " 
» |. Add Variable- — 
Project References 
Run/Debug Settings P A 
Scala Compiler 
Sh Formallan = Aded Class Foldern 
Seala Organize imports (Add External Class Folder- 
Task Repository 
Task Tags [ edit. ] 
Validation pa 
WikiText Sa) 
Migrate JAR File... 
| 
qq 
[o] [ ok ][ eme 


6-69 创建 Scala 文 件 
增加 一 个 Scala Class, 命 名 为 : WordCount, 整 个 文件 结构 如 图 6-70 所 示 。 
3. 基于 Scala 语言 的 Spark WordCount 实例 
Scala 代码 如 下 : 
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4 $$ SparkScala 
4 (default package) 
4  WordCountscala 
4 © WordCount 
@ main(args: Array[String]): Unit 
> mÀ Scala Library [2.9.3] 
> BÀ JRE System Library UavaSE-1.6] 
4 BA Referenced Libraries 
b F spark-assembly-0.8.1-incubatina-hadoon2.2.0.iar - 


图 6-70 新 建 后 的 文件 结构 


import org.apache. spark. - 
import SparkContext. _ 
object WordCount ( def main(args: Array[String]) { 
if (args. length != 3){ 
println("usage is org. test. WordCount < master > < input > < output >") 
return 
} 
val sc = new SparkContext(args(0), "WordCount", 
System.getenv("SPARK HOME"), Seq(System.getenv("SPARK TEST JAR"))) 
val textFile = sc.textFile(args(1)) 
val result = textFile. flatMap(line => line. split("\\s+")).map(word => (word, 
1)).reduceByKey( + _) 
result. saveAsTextFile(args(2)) 
) 
) 


在 Scala 工程 中 , 47d“ WordCount. scala" ,选择 “Export”, 并 在 弹出 框 中 选择 *Java” 一 ~ 
“JAR File”, 进 而 将 该 程序 编译 成 jar 包 , 可 以 起 名 为 “spark-wordcount-in-scala. jar", 

该 WordCount 程序 接收 三 个 参数 ,分 别 是 master fZ ft , HDFS 输入 目录 和 HDFS 输出 
目录 ,为 此 ,可 编写 run_spark_wordcount. sh 脚本 : 


# 配 置 Hadoop 配置 文件 变量 

export YARN CONF DIR = /opt/hadoop/yarn - client/etc/hadoop/ 

# 配 置 Spark - assemble 程序 包 的 位 置 ,可 以 将 该 jar 包 放 置 在 HDFS 上 , 避免 每 次 运行 都 上 传 一 次 
SPARK_JAR = . /assenbly/target/scala - 2.9.3/spark- assembly — 0.8.1- incubating- hadoop2. 2. 0. jar 
# fE spark 的 根 目录 下 执行 

. /bin/spark - submit 

# 自己 编译 好 的 jar 包 中 指定 要 运行 的 类 名 

—- class WordCount V 

# 指 定 Spark 运行 于 Spark on Yarn 模式 下 ,这 种 模式 有 两 种 选择 : yarn - client 和 yarn- cluster, 
# 分 别 对 应 于 开发 测试 环境 和 生产 环境 

—- master yarn- client V 

## 指 定 刚刚 编译 好 的 jar 包 ,也 可 以 添加 一 些 其 他 的 依赖 包 

—- jars spark — wordcount — in- scala. jar V 

# 配 置 worker 数量 内存、 核心 数 等 

— num- workers 1 V 

— master — memory 2g V 

— worker — memory 2g V 

— worker — cores 2 

# f£ A WordCount 的 nain 方法 的 参数 ,可 为 多 个 ,空格 分 隔 

hdfs://hadoop - test/tmp/input\ hdfs:/hadoop - test/tmp/output 
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直接 运行 run spark wordcount. sh 脚本 即 可 得 到 运算 结果 。 
4. 基于 Java 语言 开发 Spark 程序 


方法 跟 普通 的 Java 程序 开发 一 样 , 只 要 将 Spark 开发 程序 包 spark-assembly 的 jar 包 
作为 三 方 依赖 库 即 可 。 下 面 给 出 Java 版 本 的 Spark WordCount 程序 。 


package org. apache. spark. examples; 
import org. apache. spark. api. java. JavaPairRDD; 
import org. apache. spark. api. java. JavaRDD; 
import org. apache. spark. api. java. JavaContext; 
import org. apache. spark. api. java. function. FlatMapFunction; 
import org. apache. spark. api. java. function. Function2; 
import org. apache. spark. api. java. function. PairFunction; 
import scala. Tuple2; 
import java. util. Arrays; 
import java.util.List; 
import java. util. regex. Pattern; 
public final class JavaWordCount { 
private static final Pattern SPACE = Pattern. compile(" "); 
public static void main(String[] args) throws Exception { 
if (args. length < 2) { 
System. err. println("Usage: JavaWordCount < master > <file>"); 
System. exit(1); 
5 
JavaSparkContext ctx = new JavaSparkContext(args[0], 
"JavaWordCount", 
Systen.getenv("SPARK HOME"), 
JavaSparkContext. jarOfClass(JavaWordCount. class)); 
JavaRDD < String> lines = ctx.textFile(args[1], 1); 
JavaRDD < String» words = lines.flatMap( 
new FlatMapFunction< String, String>() { 
@override 
public Iterable< String> call(String s) { 
return Arrays. asList(SPACE. split(s)); 


n; 
JavaPairRDD« String, Integer» ones = words. map( 
new PairFunction< String, String, Integer>() { 
@override 
public Tuple2 «String, Integer > call(String s) { 
return new Tuple2 < String, Integer »(s, 1); 


n; 
JavaPairRDD« String, Integer» counts = ones. reduceByKey( 
new Function2 < Integer, Integer, Integer>() { 
@Override 
public Integer call(Integer il, Integer i2) { 
return il + i2; 
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n; 
List < Tuple2 < String, Integer >> output = counts.collect(); 
for (Tuple2 «?, ?> tuple : output) { 
System. out. println(tuple._1() + ":" + tuple. 2()); 
lh 


System. exit(0); 


5. 在 Spark 集群 上 运行 Scala 或 Java 的 程序 


不 管 是 Scala 还 是 Java 程序 ,都 能 够 用 Eclipse 打包 成 jar 包 。 在 集群 上 用 spark- 
submit 命令 运行 。 具 体 的 命令 格式 是 : 


spark — submit V 

—- class org. apache. spark. examples. JavaWordCount V 
—- master spark://sparkl:7077 \ 
/opt/spark/1ib/spark - examples — 1.0.1 — hadoop1. 0. 4. jar V 
hdfs: //spark1:9000/user/root/input 


其 中 第 一 个 参数 cass 代表 需要 运行 的 类 ,可 以 是 Java 9X Scala 的 类 。 

master 指定 运行 程序 的 集群 URI. spark 集群 的 协议 标识 符 为 spark: // ,默认 端口 
5 7077, 

倒数 第 二 个 参数 是 程序 所 在 的 jar 包 。 

后 面 跟 着 的 一 些 参数 是 传递 给 所 运行 的 类 的 main 方法 的 参数 。 

当然 spark-submit 命令 还 可 以 在 jar 包 位 置 之 前 添加 更 多 的 参数 以 优化 spark 的 性 能 ， 
本 书 在 这 里 只 做 简要 介绍 ,更 多 参数 请 参考 Apache Spark 官方 文档 。 


Spark assembly has been built with Hive, including Datanucleus jars on classpath 

14/07/21 06:10:39 INFO SecurityManager: Changing view acls to:root 

14/07/21 06:10:39 INFO SecurityManager: SecurityManager: authentication disabled; ui acls 
disabled; users with view permissions:Set(root) 

14/07/21 06:10:40 INFO S1f4jLogger:Slf4jLogger started 

14/07/21 06:10:40 INFO Remoting:Starting remoting 

14/07/21 06:10:40 INFO Remoting:Remoting started; listening on addresses: [akka. tcp: //spark(à 
spark1:44529] 

14/07/21 06:10:40 INFO Remoting: Remoting now listens on addresses: [ akka. tcp://spark@sparkl: 
44529] 

14/07/21 06:10:40 INFO SparkEnv: Registering MapOutputTracker 

14/07/21 06:10:41 INFO SparkEnv:Registering BlockManagerMaster 

14/07/21 06:10:41 INFO DiskBlockManager: Created local directory at /tmp/spark - local - 
20140721061041 — 7d17 

14/07/21 06:10:41 INFO MemoryStore:MemoryStore started with capacity 297.0 MB. 

14/07/21 06: 10: 41 INFO ConnectionManager: Bound socket to port 46116 with id = 
Connect ionManagerId(sparkl, 46116) 

14/07/21 06:10:41 INFO BlockManagerMaster: Trying to register BlockManager 

14/07/21 06:10:41 INFO BlockManagerInfo: Registering block manager sparkl:46116 with 297.0 MB RAM 
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14/07/21 06:10:41 INFO BlockManagerMaster:Registered BlockManager 

14/07/21 06:10:41 INFO HttpServer:Starting HTTP Server 

14/07/21 06:10:41 INFO HttpBroadcast:Broadcast server started at http://192.168.1.100:40370 
14/07/21 06:10:41 INFO HttpFileServer: HTTP File server directory is /tmp/spark - 74e7c53e — 
a131 - 49f9 — 9ad9 — d8789524128e 

14/07/21 06:10:41 INFO HttpServer:Starting HTTP Server 

14/07/21 06:10:42 INFO SparkUI: Started SparkUI at http://spark1:4040 

14/07/21 06:10:44 INFO SparkContext : Added JAR file:/opt/spark/lib/spark - examples - 1.0.1 — 
hadoopl.0.4. jar at http://192. 168. 1. 100: 54844/jars/spark - examples - 1. 0. 1 — hadoopl. 0. 4. 
jar with timestamp 1405894244309 

14/07/21 06:10:44 INFO AppClient $ ClientActor:Connecting to master spark://sparkl:7077... 
14/07/21 06:10:44 INFO MemoryStore: ensuceFreeSpate (35456) called with curMem = 0, maxMem 
7 311387750 

14/07/21 06:10:44 INFO MemoryStore:Block broadcast 0 stored as values to memory (estimated 
Size 34.6KB, free 296.9 MB) 

14/07/21 06:10:45 INFO SparkDeploySchedulerBackend: Connected to Spark cluster with app ID app 
— 20140721061045 — 0002 

14/07/21 06:10:45 INFO AppClient $ ClientActor:Executor added: app — 20140721061045 — 0002/0 
on worker — 20140721055711 - spark3 - 47720 (spark3:47720) with 2 cores 

14/07/21 06:10:45 INFO SparkDeploySchedulerBackend:Granted executor ID app - 20140721061045 
— 0002/0 on hostPort spark3:47720 with 2 cores,512.0 MB RAM 

14/07/21 06:10:45 INFO AppClient $ ClientActor:Executor added: app — 20140721061045 — 0002/1 
on worker — 20140721055711 - sparkl- 37219 (spark1:37219) with 2 cores 


6.5.4 基于 Impala 的 查询 实践 


1. 配置 Impala 开发 环境 

Impala 支持 JDBC 集成 。 通 过 使 用 JDBC 驱动 ,你 编写 的 Java 程序 、BI 应 用 或 类 似 的 
使 用 JDBC 访问 不 同 数据 库 产品 的 工具 ,可 以 访问 Impala。 建 立 到 Impala 的 JDBC 连接 包 
括 以 下 步骤 ， 

指定 可 用 的 通信 端口 , 见 配 置 JDBC 端口 。 

在 每 台 运行 JDBC 应 用 的 机 器 上 安装 JDBC 驱动 。 见 在 客户 端 系统 启用 Impala 的 
JDBC 支持 。 

为 JDBC 应 用 连接 运行 impalad 守护 进程 的 服务 器 配置 连接 字符 串 , 以 及 相应 的 安全 
设置 。 见 建立 JDBC 连接 。 

2. 配置 JDBC 端口 

默认 的 JDBC 2.0 端口 是 21050; Impala 服务 器 默认 通过 相同 的 21050 端口 接收 JDBC 
连接 。 请 确认 该 端口 可 以 与 网 络 中 的 其 他 主机 通信 ,例如 ,没有 被 防火 墙 阻 断 。 假 如 你 的 
JDBC 客户 端 软件 使 用 其 他 端口 连接 , 当 启 动 Impalad 时 使 用 -hs2_port 选项 指定 其 他 的 端 
口 。 参 见 启动 Impala 了 解 详细 信息 。 

3. 在 客户 端 启用 Impala JDBC 支持 

Impala 提供 JDBC 客户 端 驱动 ,是 一 个 JAR 包 , 存 在 于 一 个 zip 压缩 文件 里 (The 


Impala JDBC integration is made possible by a client-side JDBC driver, which is contained 
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in JAR files within a zip file), FIX zip 文件 到 每 台 需 要 连接 到 Impala 的 客户 端 机 器 上 。 

在 运行 JDBC 应 用 的 系统 上 启用 Impala JDBC X $$: 

将 Impala JDBC 的 jar 包 拖 电 到 Eclipse 工程 的 lib 目录 ,并 添加 到 build path 中 。 

为 了 成 功 加 载 Impala JDBC 驱动 ,客户 端 必须 能 正确 定位 这 个 JAR 文件 。 这 通常 意味 
着 设置 CLASSPATH 包含 该 JAR 文件 。 用 户 可 以 通过 查阅 文档 了 解 JDBC 客户 端 安装 新 
的 JDBC 驱动 。 

4. 建立 JDBC 连接 

Impala JDBC 驱动 类 是 org. apache. hive. jdbc. HiveDriver。 当 你 已 经 配置 Impala 支持 
JDBC, 可 以 在 两 者 之 间 建 立 连接 。 使 用 连接 字符 串 “jdbe: hive2://host: port/; auth = 
noSasl”, 为 集群 建立 不 需要 Kerberos 认证 的 连接 。 例 如 : 


jdbc : hive2 : / /nyhost. example. com:21050/; auth = noSasl 


使 用 连接 字符 串 “jdbc: hive2://host: port/; principal = principal. name”, 建立 需要 
Kerberos 认证 的 连接 。 最 重要 的 是 使 用 与 启动 Impala 相同 的 用 户 建立 连接 (The principal 


must be the same user principal you used when starting Impala) 。 例 如 : 


jdbc: hive2://myhost. example. com: 21050/; principal = impala/myhost. example. com @ H2. 
EXAMPLE. COM 


5. JDBC 连接 实例 


package edu. scnu. ImpalaJDBC; 
import java. sql. Connection; 
import java. sql. DriverManager; 
import java. sql. ResultSet; 
import java. sql. Statement; 
// here is an example query based on one of the Hue Beeswax sample tables 
public class ImpalaJDBC{ 
// set the impalad host 
private static final String SQL_STATEMENT = "SELECT a FROM test limit 10"; 
// port 21050 is the default impalad JDBC port 
private static final String IMPALAD HOST = "192.168.1.106"; 
private static final String IMPALAD JDBC PORT = "21050"; 
private static final String CONNECTION URL = "jdbc:hive2://" + IMPALAD HOST + 
':' + IMPALAD JDBC PORT + "/;auth- noSasl"; 
private static final String JDBC DRIVER NAME - "org.apache. hive. jdbc. HiveDriver"; 
private static final String SQL STATEMENT - "SELECT * FROM SOME TABLE"; 
public static void main(String[] args) { 
System. out. println("\n==================================="); 
System. out. println("Cloudera Impala JDBC Example"); 
System. out. println("Using Connection URL: " + CONNECTION URL); 
System.out.println("Running Query: " + SQL STATEMENT); 
Connection con - null; 
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try ( 
Class.forName(JDBC DRIVER NAME); 
con = DriverManager.getConnection(CONNECTION URL); 
Statement stmt = con.createStatement(); 
ResultSet rs - stmt.executeQuery(SQL STATEMENT); 
System. out. println("\n== Begin Query Results ====="); 
// print the results to the console 
while (rs.next()) ( // the example query returns one String column 
Systen. out. println(rs.getString(1)); 
System. out. println(" == End Query Results === Wn"); 
) 
catch (Exception e) ( 
e. printStackTrace( ) ; 
} 
finally { 
try { 


con. close() ; 
} 
catch (Exception e) { 
} 
) 


6.6 大 数据 研究 与 发 展 方向 


尽管 大 数据 的 时 代 已 经 到 来 ,各 界 也 发 现 了 大 数据 的 巨大 价值 ,但 是 大 数据 的 研究 还 处 
在 初始 阶段 , 随 着 研究 的 不 断 深入 ,大 数据 所 面临 的 问题 也 越 来 越 多 ,如 何 让 大 数据 朝 着 有 
利于 全 社会 的 方向 发 展 就 需要 全 面 地 研究 大 数据 ,以 下 是 几 种 可 能 的 大 数据 未 来 的 研究 与 
发 展 方向 。 


6.6.1 数据 的 不 确定 性 与 数据 质量 


大 数据 ,顾名思义 是 数据 量 非常 大 ,如 何 从 这 些 庞大 的 数据 量 中 提取 到 尽 可 能 多 的 有 用 
信息 就 涉及 数据 质量 的 问题 。 在 网 络 环境 下 ,不 确定 性 的 数据 广泛 存在 ,并 且 表现 形式 多 
样 ,这 样 大 数据 在 演化 的 过 程 中 也 伴随 着 不 确定 性 。 文 献 "中 提 到 了 网 络 大 数据 的 不 确定 
性 ,其 实 大 数据 的 不 确定 性 不 仅仅 适用 于 网 络 大 数据 ,对 一 般 大 数据 而 言 也 存在 这 种 不 确定 
性 。 大 数据 的 不 确定 性 要 求 我 们 在 处 理 数 据 时 也 要 应 对 这 种 不 确定 性 ,包括 数据 的 收集 、 存 
储 、 建 模 、 分 析 都 需要 新 的 方法 来 应 对 。 这 样 也 给 学 习 者 和 研究 者 带 来 了 很 大 的 挑战 ,数据 
质量 就 很 难得 到 保证 ,况且 大 数据 的 研究 领域 尚 浅 ,本 身 就 有 很 多 或 待 解决 的 问题 。 面 对 不 
断 快速 产生 的 数据 ,在 数据 分 析 的 过 程 中 很 难保 证 有 效 的 数据 不 丢失 ,而 这 种 有 效 的 数据 才 
是 大 数据 的 价值 所 在 ,也 是 数据 质量 的 体现 。 所 以 需要 研究 出 一 种 新 的 计算 模式 ,一 种 高 效 
的 计算 模型 和 方法 ,这样 数据 的 质量 和 数据 的 时 效 性 才能 有 所 保证 。 几 位 从 事 大 数据 研究 
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的 专家 也 强调 了 数据 质量 的 重要 性 .中国 工程 院 院 士 \ 西 安 交通 大 学 教授 汪 应 洛 认 为 ,在 大 
数据 产业 发 展 中 ,数据 质量 也 是 一 大 障碍 ,不 容 忽 视 。 他 说 ,“ 数 据 质量 是 大 数据 产业 这 座 大 
厦 的 基础 。 如 果 数 据 质量 不 高 ,基础 不 牢靠 ,大 数据 产业 就 可 能 发 发 可 危 , 甚 至 根本 无 从 


6.6.2. 跨 领 域 的 数据 处 理 方法 的 可 移植 性 


大 数据 自身 的 特点 决定 了 大 数据 处 理 方法 的 多 样 性 、 录 活性 和 广泛 性 。 而 今 几乎 每 个 
领域 都 有 涉及 大 数据 ,在 分 析 处 理 大 数据 的 建 模 过 程 中 除了 要 考虑 大 数据 的 特点 外 还 可 以 
结合 其 他 领域 的 一 些 原理 模型 ,如 用 来 源 于 生物 免疫 系统 的 计算 模型 去 处 理 大 数据 中 的 关 
键 属性 的 选择 。 还 有 统计 学 中 的 统计 分 析 模 型 ,特别 是 对 原始 数据 的 统计 和 计量 ,音频 、 视 
频 、 照 片 等 重要 信息 。 广 泛 吸 纳 其 他 研究 领域 的 原理 模型 ,然后 进行 有 效 的 结合 ,从 而 提高 
大 数据 处 理 的 效率 ,这 或 许 会 成 为 以 后 大 数据 分 析 处 理 的 重要 方法 。 


6.6.3 ”数据 处 理 的 时 效 性 保证 一 一 内 存 计算 


大 数据 处 理 的 速度 问题 愈 发 突出 ,时效 性 难以 保证 。 总 体 来 看 ,大 数据 处 理 的 挑战 实质 
上 是 由 信息 化 设施 的 处 理 能 力 与 数据 处 理 的 问题 规模 之 间 的 矛盾 引起 的 。 大 数据 所 表现 出 
的 增 量 速度 快 . 时 间 局 部 性 低 等 特点 ,客观 上 加 剧 了 了 矛盾 的 演化 ,使 得 以 计算 为 中 心 的 传统 
模式 面临 着 内 存 容量 有 限 ,输入 /输出 (1/O) 压 力 大 ,缓存 命中 率 低 、 数 据 处 理 的 总 体 性 能 低 
等 诸多 挑战 ,难以 取得 性 能 、 能 耗 与 成 本 的 最 佳 平衡 ,使 得 目前 的 计算 机 系统 无 法 处 理 PB 
级 以 上 的 大 数据 。 由 于 大 数据 是 一 种 以 数据 为 中 心 的 数据 密集 型 技术 , 现 有 的 以 计算 为 中 
心 的 技术 难以 满足 大 数据 的 应 用 需求 ,因此 ,整个 IT 架构 的 革命 性 重 构 势 在 必 行 。 随 着 新 
型 非 易 失 性 存储 器 件 的 出 现 和 成 本 的 不 断 走 低 ,客观 上 为 设计 以 数据 为 中 心 的 大 数据 处 理 
模式 , 即 内 存 计算 模式 创造 了 机 会 。 它 将 新 型 存储 级 内 存 (storage class memory, SCM) 器 
件 设计 成 为 新 内 存 体系 的 一 部 分 ,而 非 作为 虚拟 内 存 交 换 区 域 的 外 存 补充 ,计算 不 仅 存在 于 
传统 的 内 存 上 ,也 在 新 型 存储 级 内 存 上 发 生 。 

为 大 数据 处 理 量 身 定制 一 套 合适 的 计算 架构 并 非 易 事 。 当 前 国际 学 术 界 和 工业 界 主要 
从 系统 软件 ,体系 结构 .分布 式 系统 等 方面 进行 了 改进 和 优化 。 在 系统 软件 方面 ,人 们 主要 
提出 了 以 内 存 数据 库 及 编译 器 优化 等 技术 来 应 对 大 数据 处 理 难 题 。 内 存 数据 库 ( 如 H- 
store) 将 相关 数据 加 载 到 内 存 中 ,从 而 不 需要 引入 磁盘 I/O 的 开销 。 但 是 它 提 供 了 ACID 
保证 , HU: 原子 性 (atomicity)、 一 致 性 (consistency)、 隔离 性 (isolation) 和 持久 性 
(durability) ,使 得 对 一 致 性 要 求 较 弱 的 应 用 支付 了 不 必要 的 开销 ,限制 了 系统 的 可 扩展 性 。 
另外 也 有 从 编译 方面 进行 优化 的 ,例如 PeriSCOPE 通过 数据 类 型 及 数据 大 小 确定 最 小 的 数 
据 传 输 流 。 在 系统 结构 方面 ,主要 通过 采取 增加 内 存 、 增 加 处 理 器 和 协 处 理 器 以 及 增加 IO 
通道 来 缓解 大 数据 处 理 带 来 的 挑战 。 但 是 这 些 增加 又 为 体系 结构 的 改进 带 来 了 成 本 与 能 耗 
的 增加 。 在 分 布 式 系统 方面 ,人 们 提出 了 以 MapReduce( 或 Hadoop) 架 构 等 来 解决 这 一 难 
题 。MapReduce 通过 提供 Map 和 Reduce 两 个 函数 处 理 基 于 键 值 (key-value) 方 式 存储 的 
数据 ,能 简单 方便 地 在 分 布 式 系统 上 获得 很 好 的 可 扩展 性 和 容错 性 。 然 而 MapReduce 需要 
从 磁盘 获取 数据 ,再 将 中 间 结 果 数 据 写 回 磁盘 。 
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由 于 系统 的 1/O 开销 极 大 ,不 适用 于 具有 实时 性 需求 的 应 用 。 通 过 多 个 节点 同时 处 理 
数据 虽然 能 够 缓解 大 数据 处 理 面临 的 挑战 ,但 是 分 布 式 系统 带 来 的 一 致 性 问题 也 极 大 地 限 
制 了 大 数据 处 理 的 并 行 性 , 且 不 可 避免 。 因 此 只 能 通过 放松 系统 的 一 致 性 要 求 提 高 系统 利 
用 率 , 比 如 : 两 阶段 提交 协议 .Paxos 提交 协议 和 分 布 式 事务 内 存 。 但 是 ,这 些 优化 技术 仍 
然 面临 着 L/O 能 力 不 足 的 难题 。 由 此 可 见 ,目前 对 大 数据 处 理 的 优化 都 是 基于 传统 的 内 存 - 
磁盘 访问 模式 ,数据 处 理 的 关键 “数据 1/0 瓶颈 一 直 存 在 , 现 有 的 方案 只 是 改进 、 优 化、 组 
和 或 屏蔽 了 这 个 瓶颈 问题 。 内 存 和 外 存 之 间 的 1/0 性 能 不 匹配 一 直 是 造成 数据 处 理 速度 
低下 的 重要 原因 。 近 年 来 , 随 着 电阻 存储 器 (resistive random access memory. RRAMD 、 铁 
H FF fifi Ar (ferroelectric random access memory，FeRAM)、 相 变 存 储 器 (phase change 
memory，PCM) 等 为 代表 的 新 兴 非 易 失 性 随机 存储 介质 Cnon-volatile memory, NVM) 技 术 
的 发 展 ,使 得 传统 的 内 存 与 存储 分 离 的 界限 逐渐 变 得 模糊 ,推进 了 存储 技术 的 发 展 ,为 新 型 
的 内 存 与 存储 体系 结构 的 产生 打下 了 良好 的 基础 。 随 着 存储 介质 访问 技术 的 提升 和 单位 容 
量 成 本 的 下 降 ,一 场 围 绕 存 储 和 内 存 体系 结构 的 变革 悄然 来 临 ,吸引 了 诸如 TBM, SEE AK 
美光 ,三 星 等 一 些 IT 企业 的 关注 和 投入 。 从 2011 年 起 ,IBM 等 国际 IT 企业 围绕 本 项 技术 
投入 重金 进行 研究 ,国内 的 企业 和 科研 机 构 也 在 进行 这 方面 的 研究 工作 ,估计 这 项 技术 将 在 
2015 年 左右 成 熟 。 人 们 预计 ,新 型 存储 介质 的 访问 性 能 逐步 通 近 动态 随机 存 取 存储 器 
(dynamic random access memory, DRAM) ,但 是 其 容量 和 单位 价格 却 将 远 低 于 DRAM., 

因此 ,基于 新 型 存储 器 件 和 传统 DRAM 设计 新 型 混合 内 存 体系 ,可 以 在 保持 成 本 和 能 
耗 优势 的 前 提 下 大 幅 提 升 内 存 容量 ,从 而 避免 传统 计算 设施 上 内 存 - 磁 盘 访 问 模式 中 的 1/0 
能 力 受 限 的 问题 ,使 计算 不 仅 可 以 在 DRAM 内 存 上 进行 ,也 可 以 在 新 型 非 易 失 型 存储 设备 
上 进行 ,这 将 彻底 改变 传统 的 以 计算 为 中 心 的 设计 模式 ,为 大 数据 处 理 提供 了 一 种 基于 混合 
内 存 架构 的 以 数据 为 中 心 的 处 理 模 式 , 从 而 大 幅度 提升 大 数据 处 理 的 时 效 性 。 这 种 以 新 型 
非 易 失 型 存储 设备 为 基础 构建 混合 内 存 体 系 以 加 速 计算 的 模式 , 称 为 内 存 计 算 。 从 体系 结 
构 上 来 看 ,内 存 计算 模式 的 出 现 为 大 数据 处 理 提 供 强 时 效 .高 性 能 ,高 春 吐 的 体系 结构 支持 
带 来 了 可 能 。 


6.6.4 对 于 流 式 数据 的 实时 处 理 


数据 流 应 用 包括 传 感 网 络 、 网 络 流 分 析 、 自 动 报 收 机 、 在 线 拍 卖 以 及 其 他 在 线 分 析 事务 
日 志 的 应 用 。 持 续 型 的 流 式 数据 的 产生 在 存储 、 计 算 以 及 传输 方面 都 带 来 很 大 的 挑战 。 数 
据 流 处 理 过 程 面临 很 多 挑战 ,如 数据 流 中 数据 处 理 的 一 次 性 有 限 的 计算 资源 、 聚 类 的 簇 的 
数量 和 形状 无 法 预知 ,数据 的 特征 演变 ,数据 噪声 干扰 以 及 不 同 粒度 的 聚 类 要 求 等 。 

数据 流 处 理 的 特殊 性 以 及 大 数据 处 理 的 时 效 性 等 各 种 限制 使 得 传统 的 基于 全 部 数据 构 
建 的 聚 类 的 方法 已 不 再 适用 ,因此 研究 学 者 和 工业 界 也 逐渐 将 目光 关注 在 大 数据 的 流 式 处 
理 上 。 特 别 是 随 着 大 数据 时 代 的 到 来 ,如 何 将 传统 上 的 聚 类 应 用 到 流 式 数据 场景 成 为 一 个 
越 来 越 热 的 话题 。 目 前 在 数据 流 处 理 上 主要 有 两 个 方向 : 一 遍 聚 类 算法 (One Pass 
Algorithm) (如 增 量 式 聚 类 方法 ) 和 基于 流 模式 的 新 处 理 框架 和 算法 。 一 遍 聚 类 算法 具有 一 
定局 限 性 ,该 类 算法 是 通过 增 量 式 不 断 更 新 聚 类 结果 ,因此 其 本 身 具 有 聚 类 结果 会 受到 历史 
数据 的 影响 的 缺点 。 然 而 ,大 数据 的 数据 流 的 特点 是 : 概念 漂移 和 临时 局 域 性 (Temporal 
Locality) ,用户 关 注 的 是 最 新 数据 所 体现 的 特征 。 
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针对 数据 流 挖掘 问题 的 解决 方案 分 成 两 类 : 基于 数据 的 方案 (Data-based Solutions) fl 
基于 任务 的 方案 (Task-based Solutions) 。 前 者 是 指 对 数据 集 进 行 摘要 处 理 或 者 选取 数据 
流 中 的 子 集 进行 分 析 , 例 如 采样 减 载 . 略 图 、 摘 要 数据 结构 等 方案 。 而 后 者 是 指 修改 现 有 的 
技术 或 创建 新 的 算法 来 适应 和 应 用 于 流 式 数据 的 处 理 中 ,例如 近似 算法 ,滑动 窗口 .算法 输 
出 粒度 (Algorithm Output Granularity, AOG) 等 技术 。 

大 数据 时 代 的 到 来 引起 大 数据 服务 市 场 崛起 : 通过 分 析 数 据 发 现 更 多 有 价值 的 商机 。 
在 大 数据 环境 下 ,数据 已 经 膨胀 到 无 法 存储 ,数据 只 能 以 数据 流 的 形式 呈现 , 正 是 由 于 数据 
的 表现 形式 的 改变 ,传统 数据 挖掘 的 方法 已 经 无 法 适应 这 种 新 的 需求 。 在 数据 流 聚 类 的 研 
究 方面 ,也 已 经 有 相关 的 理论 框架 和 算法 被 提出 ,如 CluStream, D-Stream 等 。 虽 然 这 些 框 
架 和 算法 关注 了 数据 流 的 快速 处 理 、 复 杂 数 据 或 者 特征 数据 的 有 效 储存 等 方面 ,但 对 数据 的 
聚 类 处 理 操作 是 连续 执行 的 ,此 外 既 没有 着 重 关注 在 有 限 的 计算 资源 上 进行 相应 的 调整 ,也 
没有 有 效 利用 大 数据 的 数据 量 大 、 数 据 相似 或 重复 的 特性 提升 对 数据 聚 类 处 理 能 力 。 然 而 ， 
在 大 数据 环境 下 ,数据 流 的 数据 是 海量 的 ,而 相应 的 处 理 资源 却 是 有 效 的 , 当 数据 流 中 待 处 
理 的 数据 压力 超过 资源 的 支持 承受 能 力 ,那么 相应 的 聚 类 服务 就 有 可 能 受到 很 大 的 影响 ,如 
被 迫 停止 ; 当然 ,也 有 相关 的 技术 对 数据 流 “ 减 压 ”, 如 采样 、 印 载 等 ,CluStream 框架 中 也 采 
用 相应 的 措施 。 持 续 型 的 流 式 数据 的 产生 在 存储 、 计 算 以 及 传输 方 存 储 方面 做 了 相关 的 研 
究 , 如 锥 体 时 间 窗 口 等 方法 ,但 是 这 些 也 主要 是 对 要 处 理 的 数据 进行 高 效 的 存储 ,但 是 不 足 
以 应 对 资源 敏感 的 计算 场景 ,因此 需要 研究 资源 敏感 性 的 问题 ,这 里 存在 一 些 相关 技术 
挑战 : 

1) 资源 状态 信息 的 实时 监控 和 调整 : 监控 系统 相关 资源 参数 ,实时 提供 资源 状态 
信息 ; 
2) 资源 敏感 策略 的 构建 : 实现 数据 流 中 的 流速 控制 ,构建 有 效 的 流 控 模 型 ,基于 当前 
的 流速 信息 自 适应 地 调整 相关 的 调控 策略 ; 

3) 聚 类 策略 的 调整 : 基于 系统 资源 状态 自主 地 调整 聚 类 的 策略 ,实现 聚 类 结果 精度 与 
资源 负载 间 的 平衡 。 

因此 ,大 数据 背景 下 ,新 形式 的 数据 以 及 新 的 应 用 需求 对 数据 处 理 提 出 了 新 的 挑战 : 如 
何 构建 新 型 的 数据 处 理 模 式 来 实现 利用 有 限 的 处 理 资源 对 一 次 性 访问 的 数据 进行 实时 
处 理 。 


6.6.5 大 数据 应 用 


大 数据 平台 在 与 情 监控 ,模式 和 关键 字 搜 索 .数据 工程 .情报 分 析 、 市 场 营销 、 医 药 卫 生 
等 领域 具有 重要 的 应 用 。 举 例 来 说 ,大 数据 平台 在 搜索 引擎 中 的 应 用 使 得 搜索 引擎 对 数据 
的 深入 加 工 和 处 理 变 成 现实 ,能 够 更 好 地 理解 用 户 的 搜索 意图 。 用 户 可 以 不 用 自己 去 筛选 
信息 ,而 是 由 搜索 引擎 根据 其 搜索 历史 及 个 人 偏好 将 有 价值 的 信息 呈现 给 用 户 。 又 如 ,网 络 
大 数据 平台 催生 了 很 多 面向 程序 员 与 数据 科学 家 的 工具 (如 Karmasphere 和 Datamer) ,使 
得 程序 员 将 数据 而 非 业务 逻辑 作为 程序 的 主要 实体 ,编写 出 更 简短 的 程序 ,更 清晰 地 表达 对 
数据 所 做 的 处 理 。 可 以 预见 ,大 数据 平台 正在 以 一 种 前 所 未 有 的 方式 改变 着 各 行 各 业 , 对 大 
数据 平台 的 应 用 能 够 更 好 地 帮助 人 们 获取 信息 并 对 信息 进行 更 高 效 地 处 理 和 应 用 。 
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云 计 算 与 大 数据 技术 理论 及 应 用 


1. 医学 领域 的 大 数据 应 用 

1) 临床 决策 支持 系统 

大 数据 分 析 技术 将 使 临床 决策 支持 系统 更 智能 ,这 得 益 于 对 非 结构 化 数据 的 分 析 能 力 
的 日 益 加 强 。 例 如 可 以 使 用 图 像 分 析 和 识别 技术 ,识别 医疗 影像 (X 光 、CT、MRD) 数据, 或 
者 挖掘 医疗 文献 数据 建立 医疗 专家 数据 库 ( 就 像 IBM Watson 做 的 ) ,从 而 给 医生 提出 诊疗 
建议 。 此 外 ,临床 决策 支持 系统 还 可 以 使 医疗 流程 中 大 部 分 的 工作 流向 护理 人 员 和 助理 医 
生 , 使 医生 从 耗 时 过 长 的 简单 咨询 工作 中 解脱 出 来 ,从 而 提高 诊疗 效率 。 

2) 医疗 数据 透明 度 

根据 医疗 服务 提供 方 设置 的 操作 和 绩效 数据 集 , 可 以 进行 数据 分 析 并 创建 可 视 化 的 流 
程 图 和 仪表 级 ,促进 信息 透明 ,“ 流 程 图 的 目标 是 识别 和 分 析 临 床 变异 和 医疗 废物 的 来 源 , 然 
后 优化 流程 "仅仅 发 布 成 本 、 质 量 和 绩效 数据 ,即使 没有 与 之 相应 的 物质 奖励 ,往往 也 可 以 促 
进 绩效 的 提高 ,使 医疗 服务 机 构 提 供 更 好 的 服务 ,从 而 更 有 竞争 力 ,“ 公 开发 布 医 疗 质 量 和 绩 
效 数据 还 可 以 帮助 病人 做 出 更 明智 的 健康 护理 决定 ”, 这 也 将 帮助 医疗 服务 提供 方 提高 总 体 
绩效 ,从 而 更 具 竞 争 力 。 

3) 医学 图 像 挖 掘 

医学 图 像 (如 CT, MRI,PET 等 ) 是 利用 人 体内 不 同 器 官 和 组 织 对 X 射线. 超 声波、 光线 
等 的 散射 、 透 射 \ 反 射 和 吸收 的 不 同 特性 而 形成 的 。“ 它 为 对 人 体 骨 筋 、 内 脏 器 官 疾病 和 损伤 
进行 诊断 .定位 提供 了 有 效 的 手段 ”, 医 学 领域 中 越 来 越 多 地 使 用 图 像 作为 疾病 诊断 的 工具 。 

2. 智能 交通 领域 的 大 数据 应 用 

1) 提高 交通 运行 效率 

大 数据 技术 能 促进 提高 交通 运营 效率 .道路 网 的 通行 能 力 、. 设 施 效率 和 调控 交通 需求 分 
析 。 交 通 的 改善 所 涉及 工程 量 较 大 ,而 大 数据 的 大 体积 特性 有 助 于 解决 这 种 困境 。 例 如 , 根 
据 美国 洛杉矶 研究 所 的 研究 ,通过 组 织 优化 公交 车 辆 和 线路 安排 ,在 车 辆 运营 效率 增加 的 情 
况 下 ,减少 46% 的 车 辆 运输 就 可 以 提供 相同 或 更 好 的 运输 服务 。 伦 敦 市 利用 大 数据 来 减少 
交通 拥堵 时 间 ,提高 运转 效率 。 当 车 辆 即将 进入 拥堵 地 段 ,传感器 可 告知 驾驶 员 最 佳 解 决 方 
FE ,这 大 大 减少 了 行车 的 经 济 成 本 。 大 数据 的 实时 性 ,使 处 于 静态 闲置 的 数据 被 处 理 和 需要 
利用 时 , 即 可 被 智能 化 利用 ,使 交通 运行 更 加 合理 。 大 数据 技术 具有 较 高 预测 能 力 , 可 降低 
误 报 和 漏 报 的 概率 ,随时 针对 交通 的 动态 性 给 予 实时 监控 。 因 此 ,在 驾驶 者 无 法 预知 交通 的 
拥堵 可 能 性 时 ,大 数据 亦 可 帮助 用 户 预先 了 解 。 例 如 ,在 驾驶 者 出 发 前 ,大 数据 管理 系统 会 
依据 前 方 路 线 中 导致 交通 拥堵 的 天 气 因素 ,判断 避 开 拥堵 的 备用 路 线 ,并 通过 智能 手机 告知 
驾驶 者 。 

2) 提高 交通 安全 水 平 

主动 安全 和 应 急救 援 系统 的 广泛 应 用 有 效 改善 了 交通 安全 状况 ,而 大 数据 技术 的 实时 
性 和 可 预测 性 则 有 助 于 提高 交通 安全 系统 的 数据 处 理 能 力 。 在 驾驶 员 自 动 检测 方面 ,驾驶 
员 疲 劳 视频 检测 ,酒精 检测 器 等 车 载 装置 将 实时 检测 驾车 者 是 否 处 于 警觉 状态 ,行为 .身体 
与 精神 状态 是 否 正常 。 同 时 ,联合 路 边 探测 器 检查 车 辆 运行 轨迹 ,大 数据 技术 快速 整合 各 个 
传感器 数据 ,构建 安全 模型 后 综合 分 析 车 辆 行驶 安全 性 ,从 而 可 以 有 效 降低 交通 事故 的 可 能 
性 。 在 应 急救 援 方面 ,大 数据 以 其 快速 的 反应 时 间 和 综合 的 决策 模型 ,为 应 急 决 策 指挥 提供 
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辅助 ,提高 应 急救 援 能 力 ,减少 人 员 伤亡 和 财产 损失 。 

3) 提供 环境 监测 方式 

大 数据 技术 在 减轻 道路 交通 堵塞 .降低 汽车 运输 对 环境 的 影响 等 方面 有 重要 的 作用 。 
通过 建立 区 域 交通 排放 的 监测 及 预测 模型 ,共享 交通 运行 与 环境 数据 ,建立 交通 运行 与 环境 
数据 共享 试验 系统 ,大 数据 技术 可 有 效 分 析 交 通 对 环境 的 影响 。 同 时 ,分 析 历 史 数 据 , 大 数 
据 技术 能 提供 降低 交通 延误 和 减少 排放 的 交通 信号 智能 化 控制 的 决策 依据 ,建立 低 排放 交 
通信 号 控制 原型 系统 与 车 辆 排放 环境 影响 仿真 系统 。 

3. 智能 电网 领域 的 大 数据 应 用 

智能 电网 中 数据 量 最 大 的 应 属 电力 设备 状态 监测 数据 。 状 态 监测 数据 不 仅 包括 在 线 的 
状态 监测 数据 (时 序数 据 和 视频 ) ,还 包括 设备 基本 信息 、 实 验 数据 .缺陷 记录 等 ,数据 量 极 
大 ,可 靠 性 要 求 高 ,实时 性 要 求 比 企 业 管理 数据 要 高 。 

云 计算 技术 在 国内 电力 行业 中 的 应 用 研究 还 处 于 探索 阶段 ,研究 内 容 主要 集中 在 系统 
构想 .实现 思路 和 前 景 展望 等 方面 。 

在 国外 , 云 计 算 应 用 目前 已 用 于 海量 数据 的 存储 和 简单 处 理 , 已 有 实现 并 运行 的 实际 系 
统 。Cloudera 公司 设计 并 实施 了 基于 Hadoop 平台 的 智能 电网 在 田纳西 河流 域 管 理 局 
(TennesseeValleyAuthority, TVA) 上 的 项 目 ,帮助 美国 电网 管理 了 数 百 太 字 节 的 PMU 数 
据 , 突 显 了 Hadoop 高 可 靠 性 以 及 价格 低廉 方面 的 优势 ; 另外 ,TVA 在 该 项 目 基础 上 开发 
了 superPDC ,并 通过 openPDC 项 目 将 其 开源 ,此 工作 将 有 利于 推动 量 测 数据 的 大 规模 分 析 
处 理 , 并 可 为 电网 其 他 时 序数 据 的 处 理 提供 通用 平台 。 日 本 Kyushu 电力 公司 使 用 Hadoop 
云 计算 平台 对 海量 的 电力 系统 用 户 消 费 数据 进行 快速 并 行 分 析 , 并 在 该 平台 基础 上 开发 了 
各 类 分 布 式 的 批 处 理应 用 软件 ,提高 了 数据 处 理 的 速度 和 效率 。 


6.6.6 大 数据 发 展 趋势 


随 着 大 数据 技术 的 研究 深入 ,大 数据 的 应 用 和 发 展 将 涉及 我 们 生产 生活 的 方方面面 。 
在 2016 年 12 月 8 日 举行 的 2016 中 国 大 数据 技术 大 会 上 ,CCF 大 数据 专家 委员 会 对 外 发 布 
T 2017 年 大 数据 发 展 趋势 十 大 预测 以 及 2013 年 至 2015 年 的 预测 对 比 59 ,具体 如 表 6-12 
和 表 6-13 所 示 。《 大 数据 发 展 趋 势 预 测报 告 ) 是 CCF 大 数据 专家 委员 会 (以 下 简称 “大 专 
委 ”) 每 年 在 技术 大 会 上 的 保留 节目 ,每 次 预测 都 是 基于 对 大 专 委 专家 委员 观点 的 收集 整理 、 
投票 .汇总 .解读 ,最 终 形成 年 度 预 测 ,此 预测 是 大 专 委 群 体 智慧 的 结晶 ,对 大 数据 相关 理论 
研究 和 应 用 开展 具有 较 好 的 指导 和 参考 意义 。 


表 6-12. 2013—2015 年 的 十 大 趋势 预测 对 比 


2013 年 预测 2014 年 预测 2015 年 预测 
1. 数据 的 资源 化 1. 大 数据 从 “概念 "走向 “价值 ” | 1. 智能 计算 与 大 数据 分 析 成 为 热点 
2. 大 数据 的 隐私 问题 突出 2. 大 数据 架构 的 多 样 化 模式 并 存 | 2. 数据 科学 带动 学 科 融 合 
3. 大 数据 与 云 计算 等 深度 融合 | 3. 大 数据 安全 与 隐私 3. 与 各 行业 结合 , 跨 领 域 应 用 
4. 基于 大 数据 的 智能 的 出 现 |4. 大 数据 分 析 与 可 视 化 4.“ 物 云 移 社 ” 融 合 ,产生 综合 价值 
5. 大 数据 分 析 的 革命 性 方法 |5. 大 数据 产业 成 为 战略 性 产业 |5. 一 体 化 平台 与 软 硬 件 基础 设施 夯实 
6. 大 数据 安全 6. 数据 商品 化 与 数据 共享 联盟 化 | 6. 大 数据 的 安全 与 隐私 保护 


323 


324 


云 计 算 与 大 数据 技术 理论 及 应 F 


续 表 
2013 年 预测 2014 年 预测 2015 年 预测 
7. 数据 科学 兴起 7. 基于 大 数据 的 推荐 与 预测 流行 | 7. 新 模式 突破 : 深度 学 习 、 众 包 计 算 
8. 数据 共享 联盟 db 8. 可 视 化 分 析 与 可 视 化 呈现 
9. 大 数据 新 职业 9. 数据 科学 的 兴起 9. 大 数据 人 才 与 教育 
10. 更 大 的 数据 10. 大 数据 生态 环境 逐步 完善 10. 开源 系统 将 成 为 主流 选择 
表 6-13 2016 一 2018 年 的 十 大 趋势 预测 对 比 
2016 年 预测 2017 年 预测 2018 年 预测 
, l. 机 器 学 习 继 续 成 智能 分 析 核 | 1. 机 器 学 习 继 续 成 为 大 数据 智能 
1. 可 视 化 推动 大 数据 平民 化 心 技术 分 析 的 核心 技术 
2. 人 工 智能 和 脑 科 学 相 结合 ,成 |2. 人 工 智 能 和 脑 科 学 相 结合 ,成 
合 与 
2 允 学 科 融 合 与 数据 科学 的 兴起 | 大 数据 分 析 领域 的 热点 为 大 数据 分 析 领 域 的 热点 


3. 大 数据 安全 与 隐私 令 人 人 忧虑 


3. 大 数据 的 安全 和 隐私 持续 令 
人 担忧 


3. 数据 科学 带动 多 学 科 融 合 


4. 新 热点 融入 大 数据 多 样 化 处 理 
模式 


4. 多 学 科 融 合 与 数据 科学 兴起 


4. 数据 学 科 虽 然 兴起 ,但 是 学 科 
突破 进展 缓慢 


5. 大 数据 提升 社会 治理 和 民生 领 
域 应 用 


5. 大 数据 处 理 多 样 化 模式 并 存 
融合 , 流 计算 成 主流 模式 之 一 


5. 推动 数据 立法 ,重视 个 人 数据 
隐私 


6.《 促 进 大 数据 发 展 行动 纲要 》 驱 
动产 业 生态 


6. 大 数据 处 理 多 样 化 模式 并 存 
融合 , 流 计算 成 主流 模式 之 一 


6. 大 数据 预测 和 决策 支持 仍然 是 
应 用 的 主要 形式 


7. 深度 分 析 推 动 大 数据 智能 应 用 


7. 开源 成 大 数据 技术 生态 主流 


7. 数据 的 语义 化 和 知识 化 是 数据 
价值 的 基础 问题 


8. 数据 权 属 与 数据 主权 备 受 关注 


8. 政府 大 数据 发 展 迅 速 


8. 基于 海量 知识 的 智能 是 主流 智 
能 模式 


9. 互联 网 金融、 健康 保持 热度 ， 
智慧 城市 企业 数据 化 .工业 大 数 
据 是 新 增长 点 


9. 推动 数据 立法 ,重视 个 人 数据 
隐私 


9. 大 数据 的 安全 持续 令 人 担忧 


10. 开源 、 测 评 、 大 赛 催 生 良 性 人 
才 与 技术 生态 


M 


题 


10. 推动 数据 立法 ,重视 个 人 数 
据 隐私 


1. 简 述 大 数据 的 定义 及 其 特征 。 

2. 思考 : HDFS 体系 结构 是 否 存在 其 局 限 性 或 瓶颈 。 
3. HDFS 中 为 什么 默认 副本 数 为 3? 

4. HBase 是 如 何 实现 随机 快速 存 取 数 据 的 ? 为 什么 要 HBASE 在 创建 表 时 只 需要 定 


义 列 族 , 列 族 是 如 何 存储 的 ? 


10. 基于 知识 图 谱 的 大 数据 应 用 
成 为 热门 应 用 场景 


5. Cassandra 中 超级 列 族 与 超级 列 与 HBase 中 的 列 族 和 列 有 什么 区 别 和 联系 ? 
6. Cassandra 提供 了 怎样 的 可 供用 户 选择 的 一 致 性 级 别 ? 
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7. Redis 的 数据 类 型 是 怎样 的 ? 是 否 像 HBase 一 样 是 Key-Value 形式 ? 
8. Redis 提供 了 哪 两 种 分 布 式 模型 ? 
9. MongoDB 的 数据 组 织 形式 是 怎样 的 ? 它 的 特点 与 应 用 场景 是 怎样 的 ? 


10. 
It. 
12. 


名 词 解释 : PRAM,BSP,LogP 与 MapReduce, 
当今 流行 的 大 数据 处 理 模型 MapReduce 的 数据 处 理 过 程 及 其 优 劣势 。 
实际 操作 搭建 编程 环境 并 编写 简单 的 调用 HDFS 和 HBase API 的 程序 ,可 参考 


HDFS, HBase 的 API 文 档 。 


. 实际 操作 搭建 编程 环境 并 编写 简单 的 MapReduce 的 程序 ,可 参考 Hadoop 的 API 


. 与 MapReduce 相 比 ,Impala 的 优势 在 哪里 ? 为 什么 有 效率 方面 的 优势 ? 
. HadoopDB 是 否 是 对 于 Hadoop 和 Hive 的 修改 ? 如 果 是 , 它 大 体 上 做 了 哪些 


. HadoopDB 其 优点 是 什么 ? 
.对 本 章节 中 提 及 的 工具 及 其 搭建 方法 做 实践 。 
18. 


在 搭建 HDP 集群 环境 的 过 程 中 ,我们 使 用 了 SSH 的 方式 进行 建立 ,请 尝试 不 通过 


SSH 方式 为 集群 添加 一 个 新 的 Ambari Agent 节点 (提示 : 需要 提前 在 所 要 添加 的 主机 上 
安装 好 Ambari-Agent ARS) 。 


19. 


请 在 Zeppelin 中 查询 出 各 个 城市 非 正常 驾驶 事件 发 生 的 比例 。 


AES 


实时 医疗 大 数据 分 析 案 例 


7.1 案例 背景 与 需求 概述 


7.1.1 背景 介绍 


目前 我 国 的 医疗 行业 现状 是 ,优质 医疗 资源 集中 在 大 城市 ,地 方 以 及 偏远 地 区 医疗 条 件 
较 差 , 医 疗 资源 的 配置 不 合理 ,导致 了 大 量 的 长 尾 需求 ,催生 了 广阔 的 互联 网 医疗 市 场 。 在 
此 背景 下 ,互联 网 的 “连接 ”属性 得 以 发 挥 , 有 效 提高 了 长 尾市 场 的 信息 流通 ,降低 了 产品 
大 受众 群 的 成 本 ,而 大 数据 技术 的 应 用 能 够 使 得 医疗 服务 更 加 完善 和 精准 。 

医疗 大 数据 的 应 用 主要 指 的 是 将 各 个 层次 的 医疗 信息 和 数据 ,利用 互联 网 以 及 大 数据 
技术 进行 挖掘 和 分 析 ,为 医疗 服务 的 提升 提供 有 价值 的 依据 ,使 医疗 行业 运营 更 高 效 ,服务 
更 精准 ,最 终 降低 患者 的 医疗 支出 。 

本 案例 将 先 介绍 某 中 医院 的 医疗 大 数据 分 析 需 求 , 然 后 采用 多 种 大 数据 技术 组 件 ,形成 

- 套 从 ETL、 非 格式 化 存储 \ 大 数据 挖掘 分 析 以 及 可 视 化 等 一 系列 数据 解决 方案 。 


7.1.2 基本 需求 


在 本 实例 中 ,以 心脏 病 临床 诊断 数据 为 处 理 对 象 ,通过 对 以 往 的 病例 进行 归 类 打 标 签 ， 
预先 评估 出 一 些 用 以 模型 训练 的 病理 数据 ,利用 大 数据 分 析 引 擎 (Hadoop、Spark 等 ) 计 算 
出 病理 分 类 决策 模型 ,再 利用 实时 大 数据 平台 建立 实时 大 数据 处 理 原型 ,对 前 端 数据 源 传送 
过 来 的 新 病例 ,加 以 预测 评估 ,演示 包括 平台 建立 、 模 型 训练 及 评估 等 多 项 内 容 。 

分 类 模型 选择 随机 森林 算法 ,心脏 病 临床 诊断 数据 包括 十 三 个 医疗 诊断 属性 ,数据 可 以 
从 下 面 网 址 中 进行 下 载 


http://archive. ics. uci. edu/ml/machine - learning - databases/heart - disease/ 
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本 实例 使 用 的 是 processed. cleveland. data 文档 中 的 数据 , 先 将 数据 保存 到 本 地 桌面 
data, txt 文件 以 待 后 用 ,数据 的 部 分 截图 如 图 7-1 所 示 。 


.. 0, 145. 0, 233. 0, 0,2.3,3.0,0.0, 6.0, 0 
|. 0, 160. 0, 286. 0, 0. 0, 0, 1. 5, 2. 0, 3. 0, 3. 0, 2 
|. 0, 120. 0, 229. 0, 0. 0, 0,2.6,2.0,2.0,7.0,1 
.. 0, 130. 0, 250. 0, 0. 0, 0, 3. 5, 3. 0, 0. 0, 3. 0, 0 
.. 0, 130. 0, 204. 0, 0. 0, 0, 1.4, 1. 0, 0. 0, 3. 0, 0 
.. 0, 120. 0, 236. 0, 0. 0, 0, 0.8, 1. 0, 0. 0, 3. 0, 0 
|. 0, 140. 0, 268. 0, 0. 0, 0, 3. 6, 3. 0, 2. 0, 3. 0, 3 
. D, 120. 0, 354. 0, 0. 0, 0, 0.6, 1.0, 0. 0, 3. 0, 0 
.. 0, 130. 0, 254. 0, 0. 0, 0, 1.4, 2.0, 1.0,7.0,2 
|. 0, 140. 0, 203. 0, 1. 0, 0, 3.1, 3. 0, 0. 0, 7. 0, 1 
- 0, 140. 0, 192. 0, 0. 0, 0, 0. 4, 2. 0, 0. 0, ô. 0, 0 
.. 0, 140. 0, 294. 0, 0. 0, 0, 1.3, 2. 0, 0. 0, 3. 0, 0 
.. 0, 130. 0, 256. 0, 1. 0, 0, 0.6, 2. 0, 1. 0, ê. 0, 2 
.. 0, 120. 0, 263. 0, 0. 0, 0, 0. 0, 1. 0, 0. 0, 7. 0,0 
|. 0, 172. 0, 199. 0, 1.0, 0, 0.5, 1. 0, 0. 0, 7. 0,0 
.. 0, 150. 0, 168. 0, 0. 0, 0, 1.6, 1. 0, 0. 0, 3. 0, 0 
.. 0, 110. 0, 229. 0, 0, 1.0, 3. 0, 0. 0, 7. 0, 1 
图 7-1 部 分 源 数据 


其 中 数据 集中 包含 14 个 字段 ,每 个 字段 以 逗号 作为 分 隔 符 隔 开 ,而 最 后 一 个 字段 即 是 
我 们 后 面 案例 演示 中 要 预测 的 结果 数据 ,其 中 每 个 字段 的 含义 可 参考 表 7-1 所 示 。 


表 7-1 数据 集中 各 字段 的 含义 


序号 | 字段 简写 字段 含义 
1 age age in years 
2 sex sex (1 — male; 0 — female) 
chest pain type 
一 Value 1; typical angina 
3 cp -- Value 2: atypical angina 
-- Value 3; non-anginal pain 
— Value 4: asymptomatic 
4 trestbps | resting blood pressure (in mm Hg on admission to the hospital) 
5 chol serum cholestoral in mg/dl 
6 fbs (fasting blood sugar > 120 mg/dD (1 — true; 0 — false) 
resting electrocardiographic results 
— Value 0: normal 
7 restecg 一 Value 1; having ST-T wave abnormality (T wave inversions and/or ST elevation or 
depression of 7 0. 05 mV) 
--Value 2; showing probable or definite left ventricular hypertrophy by Estes' criteria 
8 | thalach maximum heart rate achieved 
exang exercise induced angina (1 — yes; 0 — no) 
10 | oldpeak ST depression induced by exercise relative to rest 
the slope of the peak exercise ST segment 
11 slope 一 Value 1:upsloping 
一 Value 2: flat 
一 Value 3: downsloping 
12 | ca number of major vessels (0-3) colored byflourosopy 
13 | thal 3 = normal; 6 = fixed defect; 7 =reversable defect 
14 | num diagnosis of heart disease (angiographic disease status) 
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案例 目标 需要 实现 如 下 几 个 功能 : 

COD 使 用 ETL 工具 将 病理 数据 导入 HDFS, 作 为 训练 数据 ; 

(2) 基于 SparkMLlib 的 Random Forests 算法 从 病理 数据 中 训练 分 类 模型 ; 

(3) 模拟 数据 源 向 Kafka 传送 测试 实例 ; 

(4) 通过 Spark Streaming 从 Kafka 中 接收 该 实例 ,并 交 给 分 类 模型 做 出 决策 ,预测 


结果 。 
整个 流程 以 HDFS 为 中 心 存储 ,中 间 结 果 存 储 ,中 间 输 出 结果 以 及 最 终结 果 都 存储 在 
HDFS, 由 ETL 工具 转 存 到 其 他 存储 系统 中 。 


7.2 设计 方案 


演示 流程 如 下 图 所 示 , 利 用 Kettle 工具 将 训练 数据 从 本 地 存储 传输 到 HDFS, 利 用 
Spark MLlib 训练 分 类 模型 ,通过 MSE( 最 小 均 方 误差 ) 以 及 错误 率 来 评估 出 最 佳 模型 。 为 
了 模拟 真实 的 运行 环境 ,利用 Kafka 作为 企业 级 分 布 式 消息 总 线 , 搭 建 消息 分 发 环境 ,输入 
端 将 用 于 分 析 的 病例 数据 输入 到 Kafka, 使 用 Spark Streaming 作为 消费 者 ,从 Kafka 消息 
队列 中 拉 取 数据 ,经 分 类 模型 给 出 预测 结果 ,最 终 我 们 将 结果 存储 在 HDFS 上 ,如 图 7-2 
所 示 。 

训练 模型 


存储 计算 引擎 
样 d Kettle = HDFS [| Spark MLIib f 
EU n 结果 存储 


HDFS 
决策 推荐 
病人 数据 A _ Koka | Spark Streaming - 


高 吞吐 分 布 式 计算 引擎 

分 布 消息 系统 
大 数据 可 视 化 思维 、 
探索 数据 应 用 价值 


图 7-2 案例 流程 图 


7.2.1 ETL 


为 对 接 企业 内 部 传统 存储 系统 与 大 数据 处 理 平台 ,采用 Sqoop 或 Kettle 等 分 布 式 ETL 
工具 ,将 文本 或 存储 在 Oracle, SQL Server 等 关系 型 数据 库 中 的 海量 格式 化 数据 导入 到 
HBase、HDFS 等 NoSQL 数据 库 中 ,也 可 以 将 经 由 Hadoop、Spark 等 大 数据 计算 平台 处 理 
后 的 结果 数据 导出 到 关系 数据 库 中 ,展现 在 原 应 用 系统 中 。 利 用 Kettle 进行 数据 传输 流程 
如 图 7-3 Bros 。 


第 7 章 实时 医疗 大 数据 分 析 案例 


^ 


念 -一 @ 新 建 ETL 转 换 任务 O B. _ 十 回 结果 接收 -一 人 @@ 检验 


ae 


ere 
辐 下 发 命令 四 结果 输送 | Hadoop 集 群 
PCAP Q 下 发 命令 -— [2] 果 输 送 | Hadoop H 


图 7-3 ETL 流程 图 


7.2.2 非 格式 化 存储 


以 HDFS, HBase 等 分 布 式 存储 系统 为 核心 存储 ,通过 ETL 传输 工具 ,例如 Sqoop、 
Kettle 等 将 非 格式 化 数据 ,如 网 站 日 志 、 服 务 器 日 志 等 从 磁盘 存储 直接 导入 到 HDFS, 并 通 
过 Hive 等 查询 工具 建立 基本 的 格式 化 结构 ; 也 能 将 原 关系 数据 库 中 存储 的 格式 化 数据 ,以 
文本 形式 或 以 Sequence 结构 的 二 进 制 数据 存储 在 HDFS 中 。 


7.2.3 流 处 理 


为 应 对 海量 数据 实时 处 理 的 需求 ,采用 分 布 式 消息 系统 ,构建 企业 级 消息 总 线 ,用 
Spark Streaming 或 Storm 作为 流 数据 处 理 平台 ,实时 消费 发 布 的 海量 消息 数据 。 具 体 设计 
方案 如 下 : 基于 Kafka 构建 企业 级 消息 总 线 , 输 入 端 采用 统一 的 消息 结构 接收 不 同 应 用 程 
序 产 生 的 海量 消息 ,输出 端 独立 开发 面向 流 处 理 、 持 久 化 等 不 同业 务 场景 的 消费 者 插件 。 本 
例 中 使 用 Spark Streaming 作为 消费 者 程序 从 Kafka 中 拉 取 对 应 消息 ,如 图 7-4 所 示 。 


全 一 | E m^ E m eem Im 2 


ORK 
接收 消息 


图 7-4 流 处 理 流程 图 


7.2.4 训练 模型 与 结果 预测 


基于 心脏 病 临床 数据 的 检测 模型 ,以 Random Forests 为 分 类 模型 ,从 病例 数据 中 训练 
出 病理 预 估 模 型 ,并 通过 错误 率 、MSE 等 指标 量化 模型 评估 。 然 后 根据 训练 好 的 模型 对 测 
试 数据 进行 分 析 与 评估 ,并 给 出 预测 的 结果 。 


7.3 环境 准备 


在 开始 整个 案例 之 前 ,环境 的 搭建 肯定 必 不 可 少 , 这 里 推荐 使 用 Ambari 进行 整个 大 数 
据 平台 的 搭建 ,如 图 7-5 所 示 。 正 如 其 官网 介绍 而 言 ,Apache Ambari 项 目 旨 在 通过 开发 用 
于 配置 ,管理 和 监控 Apache Hadoop 集群 的 软件 ,使 管理 Hadoop 集群 更 方便 简单 。 
Ambari 提供 了 一 个 直观 、 易 于 使 用 的 Hadoop 管理 Web UI. 在 此 之 上 ,可 以 创建 .管理 、 监 
视 Hadoop 的 集群 ,这 里 的 Hadoop 是 广义 的 . 指 的 是 Hadoop 整个 生态 圈 ( 如 Hive, Hbase, 
Sqoop、Zookeeper、Spark 等 ) ,而 并 不 仅 是 特 指 Hadoop。 用 一 句 话 来 说 ,Ambari 就 是 为 了 


------ 一 回 数据 存储 --- -一 @ 后 续 操作 


E 云 计 算 与 大 数据 技术 理论 及 应 用 


让 Hadoop 以 及 相关 的 大 数据 软件 更 容易 使 用 的 一 个 工具 。 

整个 环境 平台 的 搭建 可 以 参考 Hortonworks 上 的 文档 (当前 最 新 版 本 为 2. 4. 2) ,下面 
给 出 地 址 : http://docs. hortonworks. com/ HDPDocuments/ Ambari/ Ambari-2. 4. 2. 0/ 
index. html。 

建议 : 安装 Ambari 时 建议 自行 搭建 一 个 本 地 库 (local repository) 进 行 安装 ,官方 文档 
中 有 介绍 ,这 里 就 不 再 详 述 。 


master 
192.168.71.139/24 


Slave0 一 3 


repo 
192.168.71.144/24 


140/24 138/24 142/24 141/24 


Ambari-Server & Agen (— ) 
Ambari-Agent aEAD 


图 7-5 集群 架构 图 


7.3.1 节点 规划 


节点 规划 的 具体 内 容 如 表 7-2 所 示 。 
表 7-2 节点 规划 的 具体 内 容 


节 点 IP x 型 主要 组 件 及 服务 
App Timeline Server, HCat Client 
HDFS Client, Hive Client 
: MapReduce2 Client, Metrics Collector 
Ambari-Server | : 
master 192. 168. 71. 139 Metrics Monitor, NameNode 


Ambari-Agent 
Pig, ResourceManager 


Spark Client, Tez Client 

YARN Client, ZooKeeper Client 
DataNode, HCat Client, HDFS Client 
History Server, Hive Client 


Hive Metastore, HiveServer2 

MapReduce2 Client, Metrics Monitor 

slaved 192. 168. 71. 140 Ambari-Agent MySQL Server, NodeManager 

Pig, SNameNode 

Spark Client, Spark History Server, Tez Client, 
WebHCat Server 

YARN Client, ZooKeeper Client 
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续 表 
节 点 IP 类 型 主要 组 件 及 服务 
DataNode, HCat Client 
HDFS Client, Hive Client 
Kafka Broker, MapReduce?2 Client 
slavel 192. 168. 71. 138 Ambari-Agent Metrics Monitor, NodeManager 
Pig,Spark Client 
Tez Client, YARN Client 
ZooKeeper Client, ZooKeeper Server 
DataNode, HCat Client 
HDFS Client, Hive Client 
Kafka Broker, MapReduce2 Client 
slave2 192. 168. 71. 142 Ambari-Agent Metrics Monitor, NodeManager 
Pig.Spark Client 
Tez Client, YARN Client 
ZooKeeper Client, ZooKeeper Server 
DataNode, HCat Client 
HDFS Client, Hive Client 
Kafka Broker, MapReduce2 Client 
slave3 192. 168. 71. 141 Ambari-Agent Metrics Monitor, NodeManager 
Pig.Spark Client 
Tez Client, YARN Client 
ZooKeeper Client, ZooKeeper Server 
repo 192. 168. 71. 144 本 地 仓库 
7.3.2 软件 选 型 
用 户 在 选择 对 应 系统 或 软件 时 可 参考 表 7-3。 
表 7-3 选择 对 应 系统 或 软件 
操作 系统 /软件 名 称 版 本 号 操作 系统 /软件 名 称 版 本 号 
Centos 6.6 Tez 0.7.0.2.3 
Apache Ambari 2.2.0.0 Pig 0.15.0.2.3 
HDP HDP-2. 3. 4. 0-3485 ZooKeeper 3.4.6.2.3 
HDFS 2.7.1.2.3 Ambari Metrics 0.1.0 
MapReduce2 2.7.1.2.3 Kafka 0.9.0.2.3 
YARN 2.7.1.2.3 Spark 1.5.2.2.3 


建议 至 少 把 HDFS、MapReduce、YARN 、ZooKeeper、Kafka 以 及 Spark 安装 上 ,还 有 安 
装 Ambari 的 过 程 中 无 须 一 次 性 安装 完 所 有 组 件 ,Ambari 安装 完毕 后 还 可 以 自行 添加 组 
件 ,因此 不 必 担 心 忽略 了 某 些 组 件 的 安装 ,这 都 是 可 以 添加 上 的 。 
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7.4 实现 方法 


经 过 上 面 三 个 部 分 的 说 明 , 相 信 都 已 经 明白 了 本 案例 的 基本 设计 方案 以 及 完成 了 整体 
环境 的 搭建 ,那么 这 一 节 就 将 脱离 “纸上谈兵 ", 开 始 最 关键 的 实践 部 分 。 

这 部 分 的 内 容 主 要 如 下 : 首先 ,我 们 将 一 开始 下 载 并 保存 好 的 data. txt 病理 数据 经 过 
ETL 工具 处 理 , 最 终 将 数据 存储 到 HDFS 中 ,作为 训练 数据 集 。 接 着 ,通过 实现 一 个 程序 ， 
模拟 Kafka 与 Spark Streaming 的 交互 ,Spark Streaming 将 从 Kafka 处 读 取 数据 并 最 终 存 
fif] HDFS 中 ,作为 测试 数据 集 。 最 后 ,通过 使 用 Spark MLIib ,根据 训 练 数据 集 进行 模型 
训练 ,然后 利用 训练 好 的 模型 对 测试 数据 集 进行 预测 ,并 将 最 终 预测 结果 存储 到 HDFS 中 。 

这 就 是 我 们 整个 实现 的 流程 ,将 分 为 3 个 环节 进行 ,具体 可 见 下 文 。 


7.4.1 使 用 Kettle/Sqoop 等 ETL 工具 ,将 数据 导 人 和 人 HDFS 


本 环节 是 ETL 环节 ,即使 用 ETL 工具 对 原始 数据 (data. txt) 进 行 清理 并 导入 到 HDFS 
中 ,所 以 这 个 环节 的 内 容 可 以 概括 为 两 点 : 

(1) 清理 : 源 病理 数据 中 有 些 记录 的 某 个 字段 含有 *?”, 会 对 后 面 的 模型 训练 产生 影 
响 , 因 而 需要 把 这 部 分 数据 清理 掉 ; 

(2) 导入 : 将 清理 后 的 数据 导入 到 HDFS 中 ,作为 训练 数据 集 。 

流行 的 ETL 工具 有 很 多 ,这 里 我 们 将 使 用 Kettle 进行 实例 的 演示 。 

1. 新 建 “转换 ” 

首先 ,请 确保 你 的 系统 已 经 配置 好 了 Java 环境 ,如 果 是 在 Windows 系统 下 使 用 
Kettle, 可 双击 解压 后 的 Kettle 工具 包 目 录 下 的 Spoon. bat 文件 ,进入 Kettle 图 形 操作 界 
面 , 单 击 文件 一 新 建 一 转换 (Ctrl 十 N) ,如 图 7-6 所 示 。 

2. 配置 Hadoop 集群 信息 

在 左 侧 * 主 对 象 树 ”分 页 找到 Hadoop Cluster 项 ,在 此 处 新 建 一 个 Cluster, 并 填写 相关 
信息 ,如 图 7-7 所 示 。 

注意 : 这 里 只 配置 了 HDFS 的 相关 信息 ,其 他 信息 并 没有 进行 配置 ,因为 本 案例 只 需 将 
数据 导入 到 HDFS, 所 以 并 不 需要 用 到 其 他 组 件 , 还 有 就 是 此 处 的 Username 以 及 Password 
是 不 起 作用 的 ,Hadoop 集群 认证 用 户 名 将 根据 使 用 者 当前 的 主机 名 称 进行 判断 ,如 本 案例 
使 用 的 主机 名 即 为 “hdfs”, 使 用 不 恰当 的 用 户 名 ,将 会 导致 导入 数据 到 HDFS 过 程 中 出 现 
权限 受 限 问题 。 

接 下 来 可 以 单 击 “测试 ?按钮 ,看 看 配置 的 信息 是 否 能 够 链接 到 Hadoop 集群 , 见 图 7-8. 
确认 正常 后 单 击 * 确 定 ? 完 成 配置 。 

3. 配置 “输入 ”与 “输出 ” 

在 核心 对 象 一 输入 这 个 地 方 拖 出 一 个 “文本 文件 输入 ”, 在 “Big Data” 目 录 下 拖 出 
“Hadoop File Output”, 如 图 7-9 所 示 。 

双击 “文本 文件 输入 ”进行 信息 配置 : 

(1)“ 文 件 ” 分 页 : 在 * 选 中 的 文件 ”栏目 填 人 要 导入 的 数据 路 径 , 还 记得 在 一 开始 下 载 
保存 的 数据 吧 ,此 处 为 : C:\Users\zhangzl\Desktop\data. txt, 如 图 7-10 所 示 。 
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K Spoon - 欢迎 ! 


BA 


打印 


办 x 文件 导入、 CT 
[5m 0 0 m 


退出 


BEE 


Perspective: Pata Integration =) 


jesktop/pdi-ce-6. 1. 0. 1-196/date-integration/ docs/Engli sh/welcome/ index. 


ntaho Data Integration 


SIFA VES), 


Icome Meet the Family Credits 


Get the Most 
From Pentaho 


Let us help you become 
an ETL, Big Data Master. 


a EF : 


5 


图 7-6 Kettle 图 形 操作 界面 


Cluster Nane: 
Foz 16071135 


T7 Use MapR client 


-wrs - 

Hostname: Port 

[182 168. 71.138 € Ro © 

Usernane Password 

[m EICTIIIIIII e 
p JobTracker 

Hostname: Port 

feam SSCS so 
ZooKeeper 

Hostname Port 

[Tecathost € ie © 
pOozie 

VRL: 

fttp: //localhost 8060/oozie e 


Quies muc | eo HAO) 
图 7-7 在 Hadoop cluster 对 话 框 中 新 建 信息 
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f Active Shim Load 
Successfully loaded the cdh55 chin 


/N Shin Configuration Verification 
> The Hadoop File System URL does not match the URL in the shims core-site. xml. 
lama aua 


Hadoop File System Connection 
Successfully connected to host 


A User Hone Directory Access 
Successfully read directory contents 


A Hoot Directory Access 
Successfully read directory contents. 


Verify User Home Permissions 
User has write and delete permissions for their hone directory 


Ping Job Tracker / Resource Manager 
Unable to connect to the host 
learn more 


Dozie Host Connection 
Unable to connect to the host 


Learn more 


HX Zookeeper Ensemble Connection 
Unable to connect to the Zookeeper Enseable 


Laura sors 
RAO 
图 7-8 查看 配置 信息 详情 
(E) " 
文本 文件 输入 Hadoop File Output 
图 7-9 文件 的 输入 与 输出 
g PHRA ME 
ek MESRAN 
TICE ETE 
文件 或 目录 [ ETE 


正则 表达 式 GR) e 


[i eS | 
MERRIE 


选中 的 文件 : 
1 C:\Users\zhangrl \Desktop\data txt | 


从 以 前 的 步 叉 接受 文件 名 
从 以 前 的 步 邓 接受 字段 名 
步 邓 该 取 的 文件 名 来 自 


r 
r 


在 输入 


里 的 亨 段 被 当 作文 件 名 [ 


显示 文件 名 .| 。 显示 文件 内 容 | _ 时 示 来 自 第 一 条 数据 行 的 内 容 | 


到 


Ota E0) | HRR BRAC) 


图 7-10 输入 “文件 ”分 页 信息 
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(2)“ 内 容 ” 分 页 : 将 分 隔 符 改 为 “,”, 对 应 源 数 据 的 逗号 分 隔 符 ,取消 头 部 勾 选 , 如 图 7-11 
所 示 。 


昌文 本 文件 从 和 AEE 
aa -————X 
EXIGENTES ie) HR) mA) 
| 
© Insert TAB 
| 
TRERERRE? TBS 
senate os 
HRI 
格式 puer | 
WS — — ————————— — — — — 8 
eee! p 
AMIR SHIR [v 
sd | 
结果 文件 名 
RMS 
Gus weo | mmem mac | 


图 7-11 输入 “内 容 ” 分 页 信息 
(3)“ 过 滤 ” 分 页 : 填写 过 滤 字 符 串 为 *?”, 这 里 是 为 了 将 源 数 据 中 含有 “?” 的 数据 清理 


掉 , 如 图 7-12 所 示 。 


DREN DORRIMEOI 


文件 内容 [MORAN (iN SE) mio 


liera eaen etmis LeS | 


[rrr 


WEO Hine mao | 


Iowa] 
7-12 输入 “过 滤 ” 分 页 信息 
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(4)“ 字 段 ? 分 页 : 单 击 获取 字段 按钮 ,如 图 7-13 Bron 


昌文 本 文件 输入 [=] 


RER ESSA 
文件 [rae (Saw [ise [SEN REE 


< | 和 名称 类 型 px im (xm | 精度 lamam [d 
1 Field! String 
2 Fide String 
3 Frida String 
4 Fields String 
S rids String 
6 Fied& String 
T Field? String 
8 Fide String 
9 Fida String 


10 Fieldlü String 
11 Fieldll — String 
12 Fieldi2 — String 
13 Fieldi3 — String 
14 Fieldl4 — String 


i— —  — Hu 


EN 
CES Wie 0) Wem mac | 


图 7-13 准备 获取 字段 
O 建议 先 “ 预 览 记 录 ”, 看 下 是 否 符合 预期 想 要 的 结果 ,最 后 再 单 击 “ 确 定 ” 按 钮 完成 
配置 。 
接着 双击 “Hadoop File Output” 进 行 信息 配置 : 
(1)“ 文 件 ” 分 页 : 选择 在 前 面 已 经 配置 好 的 Hadoop Cluster, 然 后 在 “Folder/Files” 处 
填写 导入 数据 后 的 路 径 , 此 处 为 /data/test/data. txt”, 扩 展 名 为 空 即 可 ,如 图 7-14 所 示 。 


@ Hadoop File Üutput 


BREW fide Fle Oat 


RAN |n] 


Nadoop cluster: [sz 166.71139 all Denm 
Folder/File [Jasta/test/data. txt e mo... 
SRNR V 
启动 时 不 创建 文件 记 
MSRP ROE? [7 


文件 名 里 包含 步骤 郝 ? [ 
文件 名 里 包含 救 据 分 区 号 ? 三 
文件 名 里 包含 日 期 ?三 
文件 名 里 包含 时 间 ? [ 


结果 中 添加 文件 名 也 


BEO BAC) 
Quis um 


图 7-14 “文件 ”分 页 配置 完成 效果 
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(2)“ 内 容 ” 分 页 : 将 分 隔 符 改 为 ",”, 取 消 头 部 勾 选 ,如 图 7-15 所 示 。 


@ Hadoop File Output 


快速 数据 存储 Got [^ 
ak- w-np 1 
smi 


@ tap HEO) | RAO) 


图 7-15 “内 容 ” 分 页 配置 完成 效果 
(3) "E BET AY XE. 单 击 获取 字段 按钮 ,最 后 单 击 * 确 定 ” 按 钮 完成 配置 ,如 图 7-16 所 示 。 


A Medoop File Output MEE 
SIEM [doc File Outport 

See [AB [FR 

= [em Ez] dist xm [mg [sm [p 

1 Fiddl — String 

2 Field — Sting 

3 Fidd String 

4 Field String 

S Fid String 

6 Fiel® String 

T Field? String 

8 (Field String 

9 (Field) String 

10 Fidio — String 

11 Fiddli — String 

12 Fieldl2 — String 

13 Fieldl3 — String 

14 Fiddl4 — String 

————Ó—al 加 

[ES | ae | 


图 7-16 “字段 "分 页 配置 完成 效果 

4. 执行 “转换 ” 

通过 上 面 的 步骤 ,已 经 完成 了 基本 的 配置 ,现在 可 以 开始 运行 这 个 “转换 ?了 。 

单 击 左上 和 角 的 运行 按钮 ,过 一 段 时 间 后 ,可 以 在 界面 下 方 的 执行 结果 处 看 到 详细 的 
信息 ,包括 执行 时 间 、 完 成 状态 等 ,一 旦 在 执行 过 程 中 发 生 错误 ,错误 行 会 变 红 , 这 时 日 志 页 
就 发 挥 作用 了 ,可 以 查看 日 志 , 根 据 日 志 反 馈 的 信息 进行 相应 检查 ,如 图 7-17 所 示 。 
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执行 结果 R Bx 
Onine (E) er fE SREE n te) Enetrics| d Previer data) 

a 

Eure I meern) sl ST sA[ el 更 新 [| ise] sepe | 时 间 [ m R| rever 

T ooo, 0 1 E ots 5.121 

2 do oo cw 0| m 7 ] GA 05 [3 - 


图 7-17 执行 “转换 ”后 的 效果 


5. 查看 导入 后 的 结果 
前 面 我 们 把 数据 导入 到 了 路 径 /data/test/data. txt 中 ,现在 来 看 一 下 HDFS 中 的 这 个 
文件 是 否 存在 ,如 图 7-18 所 示 。 


图 7-18 查看 导 人 后 的 结果 


可 见 确实 有 一 个 data. txt 文件 ,继续 看 一 下 文件 的 内 容 , 如 图 7-19 所 示 。 


图 7-19 查看 文件 内 容 


由 此 可 以 知道 数据 已 经 导入 成 功 ,而 且 已 经 去 掉 了 含有 “?” 的 数据 ( 源 数 据 共 303 行 , 导 
AJER F 297 行 )。 当 然 ,这 里 只 是 简单 使 用 了 Kettle 导入 数据 到 HDFS, 其 实 Kettle 还 有 
许多 高 级 和 复杂 的 操作 ,比如 链接 数据 库 、 排 序 等 ,甚至 是 使 用 Kettle 集群 提高 执行 效率 ， 
但 是 请 明确 你 的 数据 量 是 否 大 到 真 的 需要 使 用 Kettle 集群 不 可 ,和 否则 有 可 能 适得其反 。 最 
后 ,作为 ETL TA, Kettle 的 功能 是 十 分 强大 的 , 感 兴趣 的 可 以 自行 到 网 上 搜寻 相关 资料 。 


7.4.2 基于 Spark Streaming 开发 Kafka 连接 器 组 件 


本 环节 是 Kafka 与 Spark Streaming 交互 的 环节 ,我 们 将 实现 一 个 程序 ,实现 Spark 
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Streaming 从 Kafka 处 读 取 数 据 并 最 终 存 储 到 HDFS 中 ,作为 测试 数据 集 ,以 便 最 后 的 预测 
使 用 。 在 这 个 环节 中 ,我 们 将 会 有 两 大 部 分 内 容 : 

CD 测试 前 面 提 到 的 环境 搭建 时 安装 的 Kafka 集群 是 否 能 够 正常 运作 ; 

(2) 创建 Kafka producer, 输 入 测试 数据 ,Spark Streaming 从 Kafka 处 读 取 数据 并 最 终 
存储 到 HDFS, 模 拟 读 取 “医疗 数据 "的 过 程 。 

注意 : 这 里 的 测试 数据 ,在 实际 的 生产 环境 中 ,应 该 是 实时 的 医疗 环境 数据 ,由 于 我 们 
缺少 真实 的 环境 ,所 以 这 里 以 源 数 据 集 的 前 21 条 记录 作为 测试 数据 。 其 实 这 样 也 有 好 处 ， 
因为 源 病理 数据 集 已 经 给 出 了 实际 情况 的 结果 (第 14 字段 ), 实 际 生产 环境 肯定 是 没有 的 
(因为 这 正 是 要 预测 的 ) ,这 样 后 面 使 用 模型 根据 测试 数据 集 的 前 13 个 字段 预测 最 终结 果 
后 ,还 能 够 与 实际 情况 进行 对 比 , 即 预测 成 功 还 是 失败 。 

Spark Streaming 

Spark Streaming 模块 是 对 于 Spark Core 的 一 个 扩展 ,目的 是 为 了 以 高 吞吐 量 , 并 且 容 
错 的 方式 处 理 持续 性 的 数据 流 。 目 前 Spark Streaming 支持 的 外 部 数据 源 有 Flume、 
Kafka, Twitter, ZeroMQ TCP Socket 等 。 

Kafka 

Kafka J&— 4- 41i 3X6) tea fen hit .易于 扩展 的 基于 主题 发 布 /订阅 的 消息 系统 ,最 早 是 
由 Linkedin 开发 ,并 于 2011 年 开源 并 贡献 给 Apache 软件 基金 会 。 一 般 来 说 ,Kafka 有 以 
下 几 个 典型 的 应 用 场景 : 作为 消息 队列 ` 流 计算 系统 的 数据 源 、 系 统 用 户 行为 数据 源 A 

有 关 Kafka 的 详细 介绍 可 查阅 官网 : http://kafka. apache. org/intro. html, 

1. 下 载 用 例 程 序 相关 jar 包 

本 实例 用 到 的 jar 6279 : 


spark - streaming - kafka_2.10-1.5.2. jar, 
kafka 2.10 — 0.9.0.2.3.4.51—- 1. jar, 
metrics - core- 2.2.0. jar, 

zkclient - 0.7. jar. 


其 中 第 一 个 jar 包 可 以 到 Maven CE F$: http://mvnrepository. com/ , 剩 下 三 个 jar 包 也 
同样 可 以 到 Maven 仓库 下 载 , 但 是 考虑 到 兼容 性 问题 ,更 推荐 使 用 已 安装 Kafka 的 lib 目录 
下 的 jar 包 , 一 般 来 说 都 能 找到 这 三 个 jar 包 。 然 后 ,把 上 述 四 个 jar 包 上 传 到 Spark 集群 的 
每 个 机 器 上 ,这 里 我 们 放 到 Spark 的 lib 目录 下 。 注 意 : 实际 开发 中 请 根据 Spark 和 Kafka 
版 本 下 载 正确 的 jar 包 ,否则 会 出 现 兼 容 性 问题 。 

2. 程序 代码 解析 

开发 一 个 从 Kafka 到 HDFS 的 流 处 理 程序 ,主要 代码 如 下 ,这 将 在 后 面 使 用 到 ; 


import org.apache. spark. streaming. Seconds 

import org.apache. spark. streaming.StreamingContext 
import org. apache. spark. streaming. kafka. KafkaUtils 
import org. apache. log4j. (Logger, Level} 
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// 屏 项 不 必要 的 日 志 显示 在 终端 上 

Logger. getLogger("org"). setLevel(Level. WARN) 

Logger. getLogger ( "akka" ). setLevel(Level. WARN) 

// 从 SparkConf 创建 StreamingContext 并 指定 10 秒 钟 的 批 处 理 大 小 

val ssc = new StreamingContext(sc, Seconds(10)) 

// 初 始 化 相关 参数 值 

val zkQuorum = "slavel:2181, slave2:2181, slave3:2181" 

val group = "test - consumer - group" 

val topics = "mytest" 

val numThreads = 1 

val topicMap = topics. split(",").map((_,numThreads. toInt)).toMap 
val lineMap = KafkaUtils. createStream(ssc, zkQuorum, group, topicMap) 
val lines = lineMap.map( . 2) 

// 保 存 数据 到 hdfs 中 

lines. saveAsTextFiles("hdfs://master:8020/data/testdata/prefix", "") 
// 在 shell 上 打印 数据 

lines.print 

// 启 动 流 计 算 环 境 StreaningContext 并 等 待 它 "完成 " 

ssc. start 

// 等 待 作业 完成 


ssc. awaitTermination 
3. 测试 Kafka 集群 
Kafka 集群 安装 在 slavel 一 3 三 个 节点 


表 7-4 Kafka 集群 安装 情况 


- ,如 表 7-4 所 示 


主机 IP 地 址 主机 IP 地 址 
slavel 192. 168. 71. 138 Slave3 192. 168. 71. 141 
slave2 192. 168. 71. 142 


首先 ,为 了 测试 Kafka 集群 是 否 能 够 正常 工作 ,我们 先 创建 一 个 Kafka topic(mytest), 
如 图 7-20 所 示 。 


图 7-20 创建 Kafka topic(mytest) 


然后 ,在 slavel 上 创建 一 个 producer, 先 不 输入 数据 ,如 图 7-21 所 示 。 


图 7-21 创建 producer 
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图 7-22 创建 consumer( 一 ) 


图 7-23 创建 consumer( 二 ) 


接着 回 到 在 slavel 创建 的 producer, 输 入 测试 数据 “Hello World”, 如 图 7-24 所 示 。 


图 7-24 输入 测试 数据 


此 时 可 以 看 到 ,slave2 和 slave3 的 consumer 均 收 到 了 从 slavel 的 produce 发 出 的 消 


息 , 如 图 7-25 和 图 7-26 所 示 


图 7-25 ”接收 produce 消息 (一 ) 


图 7-26 接收 produce 消息 (二 ) 


证 明 Kafka 集群 是 可 以 正常 运作 的 , 接 下 来 让 我 们 开始 与 Spark Streaming 的 交互 。 
4. Spark Streaming 从 Kafka 读 取 数据 ,并 存储 到 HDFS 
重新 在 slavel 上 启动 一 个 Kafka producer, 等 待 输入 (topic 参数 使 用 已 经 创建 好 的 


mytest) ,如 图 7-27 所 示 


图 7-27 重新 启动 Kafka producer 


登录 master 主机 ,由 于 我 们 希望 以 Spark 集群 的 方式 执行 提交 的 任务 ,因此 先 修改 
Spark 目录 下 conf/slaves 文件 内 容 , 指 定 Spark 的 slave 节点 ,然后 在 master 主机 上 启动 
Spark 主 节点 和 从 节点 ,如 图 7-28 和 图 7-29 所 示 。 
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图 7-28 修改 Spark 内 容 并 指定 的 slave 节点 


图 7-29 启动 Spark 主 节点 和 从 节点 


再 开启 一 个 窗口 ssh 到 slavel 主机 ,以 hdfs 身份 启动 Spark( 在 一 jars 参数 上 写 上 用 到 
的 jar 包 ,请 jar 包 的 路 径 一 定 要 写 对 ,以 “,” 隔 开 不 同 jar 包 , 千 万 不 能 输 成 了 以 空格 
隔 开 ) ,如 图 7-30 所 示 


图 7-30 开启 新 窗口 并 以 hdfs 身份 启动 Spark 
Spark 启动 好 了 之 后 ,可 以 输入 “:paste” 命 令 , 这 样 就 可 以 把 我 们 写 好 的 程序 直接 复 
制 粘贴 上 去 ,建议 先 在 文档 编辑 器 或 IDE 上 先 写 好 程序 ,再 把 代码 复制 到 Spark shell 上 
运行 , 按 CtrlL-D 组 合 键 后 程序 开始 运行 (当然 ,也 可 以 一 步 一 步 执行 代码 段 ) ,如 图 7-31 


在 接着 下 深 作 之 前 ,请 先 回 到 7. 4. 2 节 第 二 部 分 看 一 下 各 代码 段 的 作用 ,可 以 看 
到 ,创建 StreamingContext 时 指定 了 10 » 钟 的 批 处 理 大 小 ,这 里 可 以 理解 为 每 间隔 10 秒 
fl JA Kafka 的 mytest 中 读 取 一 次 数据 

经 过 20 秒 后 ,我们 回 到 前 面 创建 的 Kafka producer 中 ,输入 用 作 测 试 的 数据 (这 里 以 原 
数据 源 的 前 21 条 数据 作为 测试 数据 ) ,如 图 7-32 所 示 。 
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图 7-31 输入 " :paste” 命 令 并 复制 程序 


图 7-32 在 Kafka producer 界面 中 输入 测试 数据 


切 回 到 Spark shell 中 ,可 以 看 到 在 时 间 截 为 1482652780000ms 时 , 读 到 如 图 7-33 所 示 
的 数据 

然后 查看 HDFS 上 的 /data/testdata 目录 ,可 以 发 现 如 图 7-34 所 示 的 数据 。 

会 看 到 以 “prefix”(saveAsTextFile 函数 设置 ) 十 “一 ”十 时 间 戳 命名 的 文件 夹 已 经 生 
成 ,而 且 对 应 的 每 个 时 间 惟 都 会 有 相应 的 文件 夹 , 接 下 来 我 们 来 查看 时 间 截 为 
1482652780000ms 的 文件 夹 内 容 , 会 发 现存 储 的 信息 与 前 面 输入 的 数据 是 相 一 致 的 ,如 
图 7-35 所 示 。 
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SERRE 


数据 显示 (三 ) 
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7.4.3 基于 Spark MLlib 开发 数据 挖掘 组 件 


完成 了 上 面 两 个 环节 的 实践 后 ,此 时 HDFS 中 已 经 有 了 两 种 数据 集 : 训练 数据 集 以 及 
“实时 医疗 数据 集 ”( 即 测试 数据 集 ) ,那么 接 下 来 就 将 围绕 这 两 种 数据 集 进行 实现 了 。 

这 个 环节 的 主要 内 容 为 : 

(1) 利用 训练 数据 集训 练 模型 ; 

(2) 使 用 模型 对 测试 数据 集 进行 结果 预测 ,最 终 将 结果 保存 至 HDFS 中 。 

这 里 说 明 一 下 : 最 终结 果 将 包含 15 个 字段 ,其 中 前 14 个 字段 是 原 数 据 集 中 的 数据 ,而 
第 15 个 字段 则 是 模型 预测 的 结果 ,因此 我 们 可 以 直接 看 出 模型 预测 的 效果 。 

1. 程序 代码 解析 

开发 一 个 从 HDFS 上 读 取 训练 数据 (也 就 是 经 过 7.4.1 节 ETL 后 的 数据 ), 对 流 处 理 
持久 化 数据 应 用 Random Forests 算法 进行 病理 预测 评估 的 程序 。 

代码 主要 包含 两 大 部 分 ， 

CD 训练 模型 : 读 取 HDFS 上 的 训练 数据 ,并 应 用 Random Forests 算法 进行 模型 的 
训练 ; 


import org. apache. spark. nllib. tree. RandomForest 
import org. apache. spark. mllib. tree. model. RandomForestModel 
import org. apache. spark. mllib. regression. LabeledPoint 
import org. apache. spark. mllib. linalg. Vectors 
import org. apache. log4j. (Logger, Level} 
Logger. getLogger("org"). setLevel (Level. WARN) 
Logger. getLogger("akka"). setLevel (Level. WARN) 
// 读 取 训 练 数据 
val data = sc. textFile("hdfs://master:8020/data/test/data. txt"). map { 
line => 
valitems = line.split(",") 
LabeledPoint(items(13).toDouble, Vectors.dense(Array( 
items(0).toDouble, items(1).toDouble, items(2).toDouble, 
items(3).toDouble, items(4).toDouble, items(5).toDouble, 
items(6).toDouble, items(7).toDouble, items(8).toDouble, 
items(9).toDouble, items(10).toDouble, items(11).toDouble, 
items(12).toDouble 
)) 


) 
// 将 训练 集 随机 分 成 两 份 , 比例 为 7: 3 
val splits = data.randomSplit(Array(0.7, 0.3)) 
// 取 上 面 的 30% 数 据 量 作为 测试 模型 的 准确 率 
val (_, testData) = (splits(0), splits(1)) 
val numClasses = 5 
val categoricalFeaturesInfo = Map[Int, Int]() 
val numTrees = 500 
val featureSubsetStrategy = "auto" 
val impurity = "gini" 
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val maxDepth = 4 
val maxBins = 100 
// 使 用 随机 森林 算法 训练 模型 
val model: RandomForestModel = RandomForest. trainClassifier(data, 
numClasses, categoricalFeaturesInfo, 
numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins) 
val labelAndPreds = testData.map ( point => 
val prediction = model.predict(point.features) 
(point.label, prediction) 
) 
// 计 算 错 误 率 
val testErr = labelAndPreds.filter(r -» r. 1 != r. 2).count. toDouble / testData.count() 
// 计 算 MSE ffi 
val mse: Double = Math. sqrt(labelAndPreds.map(1 => (1. 1 - 1. 2) * (1. 1 - 1. 2)) 
.reduce( + _)) / testData.count() 
// 打 印 错误 率 
println("Test Error = " + testErr) 
// 打 印 MSE 值 
println("MSE = " * mse) 


(2) 使 用 模型 : 读 取 HDFS 上 的 测试 数据 集 , 使 用 训练 好 的 模型 对 测试 数据 集 进行 预 
测评 估 并 保存 结果 到 HDFS 中 。 


// 读 取 测试 数据 
val users = sc.textFile(hdfs://master:8020/data/testdata/prefix — 1482652780000/ * ). map { 
line => 
val items = line.split(",") 
(Vectors. dense(Array( 
items(0).toDouble, items(1).toDouble, items(2).toDouble, 
items(3).toDouble, items(4).toDouble, items(5).toDouble, 
items(6).toDouble, items(7).toDouble, items(8).toDouble, 
items(9).toDouble, items(10).toDouble, items(11).toDouble, 
items(12).toDouble 
)), itens(13)) 
) 
// 对 测试 数据 进行 预测 评估 
val result = users.map(1 => (1, model.predict(l. 1))) 
result. foreach(1 => println("predict for user" + 1. 1. 1(0) + " whose actual class is" + 
1. 1. 2 + " and the predict class is" + 1. 2)) 
// 保 存 结果 
result.map(l => 
IIT CO yr ue atte see ree (HR E cs Wy ee T2) 
二 
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2. 随机 森林 算法 

在 机 器 学 习 中 ,随机 森林 是 一 个 包含 多 个 决策 树 的 分 类 器 ,并 且 其 输出 的 类 别 是 由 个 别 
树 输出 的 类 别 的 众 数 而 定 。 

随机 森林 算法 的 基本 原理 : 由 多 个 决策 树 构 成 的 森林 ,算法 分 类 结果 由 这 些 决 策 树 投 
票 得 到 ,决策 树 在 生成 的 过 程 当中 分 别 在 行 方向 和 列 方向 上 添加 随机 过 程 , 行 方向 上 构建 决 
策 树 时 采用 放 回 抽样 (bootstraping) 得 到 训练 数据 , 列 方向 上 采用 无 放 回 随机 抽样 得 到 特征 
于 集 ,并 据 此 得 到 其 最 优 切 分 点 。 

根据 维基 百科 的 描述 ,随机 森林 的 优点 

CD 对 于 很 多 种 资料 , 它 可 以 产生 高 准确 度 的 分 类 器 。 

(2) 它 可 以 处 理 大 量 的 输入 变数 。 

(3) 它 可 以 在 决定 类 别 时 ,评估 变数 的 重要 性 。 

(4) 在 建造 森林 时 , 它 可 以 在 内 部 对 于 一 般 化 后 的 误差 产生 不 偏差 的 估计 。 

(5) 它 包含 一 个 好 方法 可 以 估计 遗失 的 资料 ,并 且 , 如 果 有 很 大 一 部 分 的 资料 遗失 , 仍 
可 以 维持 准确 度 。 

(6) 它 提供 一 个 实验 方法 ,可 以 去 侦 测 variable interactions。 

CO 对 于 不 平衡 的 分 类 资料 集 来 说 , 它 可 以 平衡 误差 。 

(8) 它 计 算 各 例 中 的 亲近 度 , 对 于 数据 挖掘 、 侦 测 偏离 者 (outlier) 和 将 资料 视觉 化 非常 
有 用 。 

(9) 它 可 被 延伸 应 用 在 未 标记 的 资料 上 ,这 类 资料 通常 是 使 用 非 监 督 式 聚 类 ,也 可 侦 测 
偏离 者 和 观看 资料 。 

习 过 程 十 分 快速 

更 多 关于 随机 森林 算法 的 资料 ,可 参考 后 面 的 参考 文献 部 分 

3. 模型 训练 及 预测 结果 

类 似 7. 4. 2 节 第 四 部 分 ,在 master 主机 上 启动 Spark 主 节 点 和 从 节点 ,接着 以 hdfs 身 
份 启动 Spark ,唯一 不 一 样 的 在 于 无 须 使 用 参数 -jars, 如 图 7-36 所 示 。 


Ai: 


图 7-36 启动 Spark 节点 


那么 现在 就 可 以 开始 进行 模型 的 训练 了 ,输入 “:paste” 命 令 后 ,输入 训练 模型 代码 段 ， 
如 图 7-37 所 示 。 
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图 7-37 输入 训练 模型 代码 段 


可 以 看 到 ,模型 的 错误 率 和 MSE 值 分 别 为 : 0. 2 与 0. 085516193 
所 示 。 这 个 训练 的 结果 还 是 挺 不 错 的 。 注 这 里 的 模型 其 
实 是 可 以 保存 起 来 ,以 后 进行 加 载 使 用 的 ,所 以 当 我 们 觉得 


3301012, 4n [E] 7-38 


某 次 训练 的 模型 很 不 错时 ,可 以 选择 将 其 保存 起 来 图 7-38 ”模型 的 错误 率 和 MSE ffi 
给 出 参考 指令 : 


model.save(sc, "myModelPath") 
val sameModel = RandomForestModel.load(sc, "myModelPath") 


那么 接 下 来 开始 使 用 模型 对 测试 数据 进行 预测 评估 ,并 保存 到 HDFS 上 ,如 图 7-39 
所 示 

等 待 代码 执行 完毕 后 ,可 以 到 HDFS 的 /data/result 目录 下 查看 保存 的 结果 ,可 以 看 
到 ,结果 数据 共有 15 个 字 BOUM 15 字段 是 模型 预测 的 结果 ,第 14 字段 是 — $ 
值 , 从 图 中 已 经 标记 出 了 预测 错误 的 数据 项 。 而 且 细心 的 读者 可 以 发 现 ,数据 顺序 其 
打 乱 了 ,不 信 的 可 以 回去 看 看 之 前 输入 的 数据 排列 顺 乒 这 是 因为 我 们 的 程 TT 
Spark 集群 上 ,出 于 效率 考虑 ,Spark 根据 其 策略 将 数据 进行 了 split 以 及 重组 ,因而 最 终 数 
据 顺 序 与 原来 并 不 一 致 ,如 图 7-40 所 示 。 
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图 7-39 利用 模型 对 测试 数据 进行 预测 评估 


图 7-40 重新 生成 的 数据 


到 此 ,整个 案例 过 程 已 经 结束 ,后面 会 提 到 一 些 不 足 与 扩展 的 点 ,希望 读者 也 能 够 认真 


7.5 不 足 与 扩展 


这 里 提 一 些 本 案例 存在 的 不 足 之 处 以 及 一 些 可 以 扩展 的 地 方 ,有 兴趣 的 读者 可 以 尝试 
在 实践 的 过 程 中 加 入 一 些 自己 的 想法 

(1) 本 案例 中 的 数据 集 的 数据 量 相对 较 小 ,建议 读者 可 以 尝试 使 用 数据 量 更 大 的 数据 
集 进行 实践 ,一 般 而 言 , 训 练 数据 集 越 大 ,训练 后 模型 的 可 靠 性 越 高 。 

(2) 读者 可 以 自行 编写 程序 ,实现 比如 按时 间 间 隔 反复 向 Kafka" ^E 
拟 实际 的 生产 环境 ,达到 真正 


”数据 的 功能 , 模 
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CD 请 尝试 使 用 其 他 应 用 与 Kafka 进行 交互 ; 

(A) 除了 随机 森林 算法 外 ,思考 是 否 还 有 其 他 方法 进行 数据 的 预测 与 分 析 ; 

(5) 案例 只 演示 了 导入 数据 到 HDFS, 同 样 ,可 以 尝试 从 HDFS 导出 数据 ,譬如 将 最 后 
HDFS 的 预测 结果 利用 ETL 工具 等 导出 到 数据 库 或 者 其 他 文件 系统 中 ,使 用 用 户 友 好 的 方 
式 展示 结果 ,比如 网 页 展示 等 。 


习题 
1. 实时 医疗 大 数据 分 析 的 核心 预测 模型 是 什么 ? 


2. 请 根据 教材 内 容重 现 思考 实时 医疗 大 数据 分 析 的 实现 程序 。 
3. 请 总 结实 时 医疗 大 数据 分 析 的 现实 过 程 。 


os Se 


保险 大 数据 分 析 案 例 


8.1 案例 背景 与 需求 概述 


8.1.1 背景 介绍 


随 着 大 数据 概念 的 提出 以 及 近年 来 的 迅猛 发 展 , 大 数据 已 经 渗透 到 各 行 各 业 , 传 统 的 保 
险 业 也 毫 不 例外 。 在 传统 的 保险 业 环 境 下 , 随 着 保险 公司 信息 化 建设 的 不 断 深 入 以 及 移动 
互联 网 对 保险 销售 .运营 和 服务 模式 的 持续 影响 ,保险 公司 已 经 积累 而 且 将 会 积累 更 多 的 数 
据 。 而 保险 行业 的 立 命 之 本 就 是 大 数 法 则 ,数据 对 保险 公司 具有 至 关 重 要 的 意义 。 

而 伴随 大 数据 在 各 个 行业 的 落地 ,保险 行业 也 积极 探索 大 数据 的 应 用 ,主要 包括 两 个 视 
角 : 一 是 ,各 种 新 型 的 大 数据 技术 基于 各 类 传统 数据 在 各 个 业务 场景 中 的 运用 , 即 通 过 新 技 
术 解 决 既 有 问题 ; 二 是 ,基于 各 类 新 数据 的 创新 型 运用 ,新 数据 指 企 业 的 全 新 数据 ,以 及 新 
型 数据 与 传统 数据 的 结合 。 

大 数据 的 本 质 是 解决 预测 问题 ,大 数据 的 核心 价值 就 在 于 预测 ,保险 业经 营 的 核心 也 是 
基于 预测 。 毫 不 夸张 地 说 ,保险 公司 是 否 关注 大 数据 时 代 的 到 来 ,能 和 否 对 于 大 数据 时 代 有 一 
个 积极 的 应 对 ,是 决定 它 有 没有 明天 以 及 未 来 发 展 的 关键 因素 。 


8.1.2 基本 需求 


这 里 将 会 介绍 某 大 型 保险 公司 的 三 个 业务 场景 : 基于 用 户 的 家 谱 信息 挖掘 ,基于 历史 
销售 数据 的 用 户 推荐 和 基于 历史 销售 策略 的 回归 检验 ,并 在 最 后 给 出 本 案例 所 需要 实现 的 
功能 目标 。 
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1. 基于 用 户 的 家 谱 信息 挖掘 

传统 保险 业 的 保险 销售 方式 主要 以 业务 员 线 下 销售 为 主 , 保 险 业务 员 通过 打 电 话 或 者 
上 门 拜访 的 方式 推销 公司 的 产品 。 这 种 育 目 的 营销 方式 在 过 往 取 得 了 不 错 的 效果 ,通过 撒 
网 式 的 销售 维持 了 公司 很 长 一 段 时 间 的 销售 业绩 。 随 着 保险 业 的 逐步 发 展 , 人 们 对 购买 保 
险 的 意愿 逐步 升 高 ,保险 购买 的 潜在 群体 正在 快速 扩大 ,如 何 能 够 更 精准 了 解 用 户 的 购买 意 
向 成 为 了 各 保险 公司 十 分 迫切 的 需求 。 

保险 的 种 类 十 分 多 样 ,图 8-1 展示 了 保险 的 种 类 。 


意外 险 
保障 功能 寿险 
健康 保险 


" 
子女 教育 
储 蘑 理 财 功能 长 一 | ”养老 保险 ] 
投资 理财 保险 


人 寿 保险 


财产 险 、 车 辆 保险 
货物 运输 保险 


财产 保险 长 一 信用 保险 、 南 任 保险 
保证 保险 
农业 保险 
图 8-1 保险 的 分 类 


如 图 所 示 , 按 被 保险 的 目标 物 进 行 分 类 ,保险 大 致 分 为 人 寿 保险 和 财产 保险 两 类 。 人 寿 
保险 主要 有 保障 和 储蓄 理财 两 大 分 类 ,主要 是 针对 人 做 出 相应 的 保障 ,财产 保险 主要 有 车 辆 
保险 、 责 任 保险 和 保证 保险 等 ,主要 是 针对 物品 做 出 相应 的 保障 。 

根据 该 大 型 保险 公司 过 往 销售 经 验 的 总 结 ,保险 的 购买 行为 往往 呈现 出 家 庭 性 质 , 如 妻 
子 会 给 丈夫 购买 人 身 保险 ,父母 会 给 孩子 购买 健康 保险 或 者 教育 保险 等 ,于 是 自然 而 然 地 就 
产生 了 对 家 庭 关 系 挖掘 的 需求 。 对 家 庭 关系 的 挖掘 可 以 通过 保单 上 或 投保 人 与 受益 人 的 关 
系 进行 。 

通过 技术 的 手段 对 公司 所 有 的 交易 数据 进行 处 理 ,挖掘 出 用 户 的 家 庭 关 系 ,保存 起 来 供 
其 他 业务 使 用 。 比 如 保险 销售 员 在 拜访 客户 的 时 候 , 便 可 以 得 知 其 家 庭 有 多 少 成 员 ,每 个 成 
员 的 属性 ,如 年 龄 .职业 .收入 .购买 过 的 保险 明细 和 保险 理赔 情况 等 。 通 过 家 谱 信息 ,销售 
员 便 可 以 精准 地 推荐 产品 给 其 家 庭 里 面 的 其 他 人 ,达到 了 精准 营销 的 目的 。 家 谱 信 息 挖掘 
的 案例 图 如 图 8-2 所 示 。 

2. 基于 历史 销售 数据 的 用 户 推 荐 

保险 公司 通过 保险 业务 员 销 售 产品 ,每 个 保险 业务 员 都 依靠 自身 的 力量 拓展 新 客户 和 
维系 老 客户 。 通 常 来 说 ,保险 业务 员 会 倾向 于 向 老 客 户 或 者 VIP 客户 去 推销 新 的 产品 , 因 
为 这 类 客户 的 购买 力 和 购买 意愿 更 强 ,这 是 符合 营销 学 规律 的 。 但 是 有 的 时 候 , 拓 展 新 的 客 
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家 谱 案例 图 


家 庭 成 员 产品 购买 


Sc E ox 8) 某 革 产品 
ES M. 某 某 产品 
夫妻 Pe 
Ez = ue FRE 
Lk ROCK REE Ere. 革 (©) 某 基 产品 | 产品 A: XXX 
职业 : Xxx nha Ak 母子 dy Ps 产品 B: XXX 
年 龄 : XXX Sl Y M" (E) sm 产品 C: XXX 
WA: XXX pna ^ dee 产品 D: XXX 
(tht: XXX T Leere 产品 E: XXX 


图 8-2 家谱 信 息 挖掘 案例 图 


户 可 能 更 加 重要 ,毕竟 保险 产品 大 部 分 属于 长 期 投资 型 ,购买 之 后 十 年 甚至 二 十 年 内 该 客户 
不 会 再 去 购买 保险 ,而 以 往 的 依靠 保险 员 经 验 的 销售 模式 往往 着 眼 点 只 放 在 了 老 客户 身上 ， 
对 于 新 客户 或 者 潜在 的 高 购买 力 客户 缺乏 发 现 的 方法 。 因 此 ,保险 公司 在 拓展 新 客户 通常 
采取 撤 网 式 的 方法 ,让 保险 业务 员 依 靠 自 身 的 能 力 逐 个 拜访 客户 。 可 想 而 知 ,这 种 方法 是 低 
效 的 ,保险 业务 员 疲 于 奔 命 在 各 个 客户 中 间 ,但 是 真正 有 购买 能 力 的 客户 可 能 少 之 又 少 。 

在 这 个 前 提 下 ,保险 公司 对 于 用 户 精准 分 类 方面 的 需求 非常 迫切 的 ,公司 方面 希望 能 够 
通过 过 往 交 易 数 据 , 发 现 出 下 一 个 季度 中 最 可 能 购买 某 一 个 产品 的 用 户 群 ,使 得 保险 销售 员 
在 销售 该 产品 的 时 候 能 够 集中 精力 优先 向 这 一 类 客户 推荐 。 对 于 某 一 种 特定 的 产品 ,经 过 
算法 分 类 出 来 的 客户 ,以 购买 概率 的 大 小 排序 ,然后 分 为 若干 个 优先 级 的 客户 ,保险 销售 员 
便 以 此 为 标准 ,按照 优先 级 的 先后 顺序 推销 保险 产品 。 业 务 的 案例 如 图 8-3 所 示 。 


用 户 列表 

5 5 5 GKXX, 1) 
特征 1 特征 2 LM 

WE» | CBX. n 

特征 4 [ mus 特征 6 > CUTS 

(#XX, 3) 


图 8-3 用 户 精 准 筛选 案例 图 


3. 基于 历史 销售 策略 的 回归 检验 

保险 公司 在 销售 某 款 产 品 的 时 候 ,根据 用 户 的 若干 特征 做 优先 级 推荐 销售 策略 。 业 务 
人 员 通 过 筛选 具有 这 些 特征 的 用 户 , 然 后 优先 对 这 些 用 户 进行 销售 。 有 具体 的 特征 及 其 类 型 
如 表 8-1 所 示 , 这 些 特征 中 ,“Vip 类 型 为 离散 型 变量 ,一 种 有 十 种 类 型 ,其 余 七 个 特征 均 为 
布尔 型 , 即 * 是 ?或 者 “不 是 ".“Vip 类 型 "并 不 是 该 公司 用 来 制定 销售 策略 的 特征 ,不 过 公司 
想 通过 一 定 的 方法 回归 检验 每 一 类 vip 客户 对 购买 行为 的 影响 程度 。 该 公司 在 产品 推销 的 
具体 过 程 是 先 选择 出 具有 某 个 特征 的 用 户 ,比如 特征 “2014/2015 连续 购买 客户 ”, 优 先 向 其 
推销 ,然后 再 向 具有 另外 一 个 特征 的 用 户 ,比如 * 普 通 客 户 积分 30000 以 上 且 近 两 年 购买 
过 ”, 向 其 推销 产品 ,以 此 类 推 。 该 大 型 保险 公司 以 往 是 通过 这 种 策略 来 提升 产品 的 销售 额 ， 
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达到 精准 营销 的 目的 。 
表 8-1 需要 回归 检验 的 用 户 特征 

特 征 名 类 型 
Vip 类 型 INT 
2013/2014 连续 购买 2015 年 中 断 客户 BOOLEAN 
2014/2015 连续 购买 客户 BOOLEAN 
VIP 客户 (贵宾 卡 及 以 上 客户 ) BOOLEAN 
第 二 份 保单 BOOLEAN 
普通 客户 持 3 份 合同 /保费 2 万 元 以 上 / 近 两 年 购买 过 BOOLEAN 
普通 客户 积分 30 000 以 上 且 近 两 年 购买 过 BOOLEAN 
止 收 客户 BOOLEAN 


这 些 特 征 具体 对 销售 的 结果 影响 如 何 , 在 传统 BI 系统 下 依据 统计 的 方法 很 难得 出 相关 
的 结论 ,只 能 通过 宏观 的 销售 额 来 大 致 确定 销售 策略 是 否 有 效 。 在 此 种 业务 环境 下 ,该 大 型 
保险 公司 想 通过 大 数据 分 析 的 手段 得 出 每 个 特征 对 购买 结果 的 影响 程度 ,检验 以 往 的 推销 
策略 是 否 有 效 ,从 而 在 下 一 年 的 销售 当中 促进 保险 的 销售 额 。 

根据 上 述 阐 述 的 三 个 业务 场景 ,总 结 出 本 案例 需要 实现 的 3 个 功能 目标 : 

CD 根据 销售 数据 中 投保 人 与 受益 人 的 关系 信息 ,基于 GraphX 进行 家 谱 信息 的 挖掘 ; 

(2) 根据 某 保险 产品 的 历史 销售 数据 ,基于 分 片 的 随机 森林 算法 进行 用 户 推 荐 ,并 按 用 
户 购买 该 产品 的 概率 大 小 进行 排序 ; 

(3) 根据 历史 销售 数据 的 用 户 特征 数据 ,基于 FP-Growth 关联 规则 挖掘 算法 进行 回归 
检验 ,比较 各 特征 对 销售 结果 的 影响 。 


8.2 设计 方案 


对 于 上 面 需求 环节 提 到 的 三 个 业务 场景 ,我 们 将 分 别 基于 下 面 三 种 算法 进行 解决 : 基 
于 GraphX 的 并 行家 谱 挖掘 算法 ,基于 分 片 技术 的 随机 森林 算法 以 及 基于 内 存 计算 的 FP- 
Growth 关联 规则 挖掘 算法 。 也 就 是 说 ,本 案例 将 包含 三 个 实验 ,分 别 对 应 于 三 个 业务 需 
求 ,并 将 依赖 于 Spark 平台 进行 整个 案例 的 实现 。 下 面 将 介绍 每 个 算法 的 建 模 过 程 。 


8.2.1 基于 GraphX 的 并 行家 谱 挖 气 算 法 


传统 的 家 谱 控 掘 算法 ,需要 自 上 而 下 多 次 扫描 所 有 的 数据 ,十 分 消耗 系统 资源 ,甚至 很 
容易 出 现 极 端 情 况 使 得 挖掘 结果 出 现 异常 ,使 用 图 算法 则 能 够 有 效 地 提高 效率 。 家 谱 挖 气 
抽象 的 执行 过 程 是 将 所 有 关系 的 集合 G 看 作 是 一 张大 “图 ” ,然后 挖掘 出 G 中 所 有 的 最 大 连 
通 分 量 集合 g 二 {gi:|i€E Neg; € G) ,具体 如 图 8-4 所 示 , 每 个 连通 分 量 g;(i 二 1,2,…,n) 即 为 
一 个 家 庭 。 

算法 的 执行 过 程 主要 分 为 两 步 ,第 一 步 是 利用 数据 存储 图 ,第 二 步 是 通过 图 计算 出 所 有 
连通 分 量 。GraphX 是 Spark 生态 下 的 图 处 理 计 算 框 架 ,十 分 适合 业务 的 需求 。 
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用 户 关系 


连通 分 量 2 


连通 分 量 
3 


连通 分 量 4 


图 8-4 家谱 挖 掘 抽象 过 程 


(1) 存储 图 
存储 图 需要 点 集 和 边 集 ,点 集 可 以 使 用 用 户 映射 表 , 边 集 则 可 以 使 用 用 户 关 系 表 。 点 集 
和 边 集 存储 图 的 过 程 如 图 8-5 所 示 。 


id 属性 投保 人 id 属性 
5 (45, 工人 ) 754 544 (C. 9. &) 
754 (78, 退休 ) 111 754 (R, 女 ， 女 ) 
n (28, 文 员 ) 897 5 Ce. 9» 
g 
O—O 


"d 


图 8-5 存储 图 的 过 程 


调用 GraphX 中 的 graph. vertices 类 存储 点 集 ,graph. edges 类 存储 边 集 。 在 图 的 存储 
方面 ,使 用 点 分 割 的 形式 存储 图 ,用 三 个 RDD 存储 图 的 数据 信息 : 

* VertexTable(id, data) ,其 中 id 为 Vertex id,data 为 Edge data, 

* EdgeTable(pid, src, dst, data) ,其 中 pid 为 Partion id.sre 为 原 定 点 id,dst 为 目的 

顶点 id。 

* RoutingTable(id，pid) .其 中 id 为 Vertex id.pid 为 Partion id, 

点 分 割 存储 实现 如 图 8-6 Bron ,在 保存 图 之 前 , 先 对 图 进行 分 割 ,使 其 分 为 若干 个 子 图 ， 
如 图 8-6 左边 所 示 ,分 为 了 两 个 子 图 。Vertex Table 和 Routing Table 是 针对 全 局 而 言 的 ， 
对 于 Vertex Table, 列 出 图 中 的 所 有 点 ,对 于 Routing Table, 除 了 列 出 图 中 所 有 点 以 外 ,还 
按照 其 划分 区 间 标 注 其 所 在 分 区 。Edge Table 则 是 每 个 分 区 分 别 存储 ,将 其 中 的 边 一 一 保 
存 下 来 。 使 用 点 分 割 的 方法 ,每 条 边 只 存储 一 次 ,都 只 会 出 现在 一 台 机 器 上 ,邻居 多 的 点 会 
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被 复制 到 多 台 机 器 上 。 这 种 做 法 虽然 增加 了 点 的 存储 开销 ,同时 也 会 引发 数据 同步 问题 ,但 
是 可 以 大 幅 减少 节点 间 的 通信 量 。 

(2) 计算 连通 分 量 

使 用 深度 优先 算法 对 图 进行 搜索 ,每 次 搜索 从 序号 最 小 的 一 个 点 出 发 ,依据 图 中 的 连通 
情况 一 致 搜索 至 该 分 量 无 其 他 项 点 为 止 ,保存 该 连通 分 量 的 边 集 信息 ,每 个 连通 分 量 的 序号 
为 初始 搜索 的 序号 。 随 后 从 未 搜索 的 点 中 序号 最 小 的 一 个 点 继续 搜索 ,直到 所 有 的 点 都 搜 
索 完毕 。 算 法 的 流程 如 图 8-7 Bras o 


Vertex Routing Edge 
Property Graph Table Table Table 
(RDD) OCO 算法 结束 
om 
on | |©#© PEERS 
cm | (O0 最 小 的 点 
KO —L- 
深度 优先 搜 
© 5 索 连 通 分 量 
O0) 
OE | |@aO 保存 边 集 
图 8-6 点 分 割 存储 实现 示意 图 图 8-7 连通 分 量 计 算 流 程 图 


8.2.2 基于 分 片 技术 的 随机 森林 算法 


对 于 某 款 保险 产品 ,用 户 是 否 会 购买 在 数据 挖掘 领域 可 以 归结 为 一 个 二 分 类 问题 。 对 
于 该 问题 的 建 模 , 应 该 分 为 两 个 步骤 进行 。 第 一 ,结合 过 往 历史 数据 训练 出 分 类 模型 ,具体 
如 图 8-8 所 示 。 第 二 ,对 未 购买 的 用 户 进行 购买 行为 的 预测 ,输出 用 户 购买 保险 的 结果 。 具 
体 如 图 8-9 所 示 。 


输入 用 户 特征 (只 包含 未 购 
买 的 用 户 ) 
输入 历史 用 户 特征 (包含 购 ! 
买 与 未 购买 的 用 户 ) 输入 用 户 特征 到 模型 中 
1 
训练 预测 模型 得 出 预测 结果 
图 8-8 ”训练 模型 图 8-9 ”预测 购买 行为 


二 分 类 问题 要 达到 一 个 比较 理想 的 结果 ,需要 正 例 与 负 例 的 比例 相对 均衡 才 行 。 但 是 ， 
对 于 该 保险 产品 购买 与 未 购买 的 客户 比例 几乎 达到 了 1 : 24, 如 果 采 用 常规 的 分 类 模型 , 负 
例 的 比例 占 绝 大 多 数 , 分 类 的 结果 会 严重 地 偏向 负 例 这 一 方 。 比 如 ,在 识别 病毒 攻击 的 场景 
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下 ,大 约 一 万 次 的 网 络 访问 只 有 一 次 是 真正 的 病毒 攻击 。 在 这 种 情况 下 使 用 任何 一 种 分 类 
模型 ,预测 结果 为 “不 是 病毒 攻击 ”, 准 确 率 也 能 达到 99. 99%。 在 传统 的 分 类 问题 评价 体系 
下 ,这 个 模型 的 表现 极其 优秀 ,但 是 对 于 用 户 来 说 是 不 可 容忍 的 ,因此 真正 的 病毒 攻击 模型 
没有 识别 出 来 。 对 于 正 例 与 负 例 严 重 不 平衡 的 二 分 类 问题 ,我 们 称 之 为 “不 平衡 二 分 类 问 
题 "。 在 这 种 应 用 场景 下 ,我们 宁愿 将 “安全 访问 ”预测 为 “病毒 攻击 ”也 不 愿意 将 “病毒 攻击 ” 
预测 为 “安全 访问 ”。 

对 于 不 平衡 分 类 问题 ,最 优 的 解决 方法 是 结合 三 种 解决 思路 ,从 分 类 方法 、 抽 样 手段 和 
评判 准则 三 方面 解决 问题 。 

(1) 分 类 方法 

分 类 模型 多 种 多 样 , 主 要 有 朴素 贝 叶 斯 分 类 、SVM 分 类 ,决策 树 、AdaBoost 和 随机 森林 
等 。 在 审查 待 分 析 数 据 的 时 候 发 现 , 待 训练 的 维度 相互 之 间 存 在 不 独立 的 现象 , 故 不 采用 朴 
素 贝 叶 斯 分 类 。 对 于 SVM 和 决策 树 算法 ,由 于 数据 分 布 不 均匀 且 每 个 特征 都 存在 着 严重 
的 不 均衡 性 ,分 类 的 结果 将 会 严重 偏向 多 数 类 的 一 方 。 因 此 ,对 于 此 业务 将 选用 随机 森林 算 
法 来 进行 模型 训练 。 随 机 森林 算法 由 若干 棵 决策 树 构成 ,每 一 棵 决策 树 都 能 对 正确 目标 给 
出 合理 ,独立 且 互 不 相同 的 估计 ,这 些 数 的 集体 平均 预测 应 该 比 任 一 个 体 的 预测 更 接近 正确 
答案 。 正 是 由 于 决策 树 构 建 过 程 中 的 随机 性 , 才 有 了 这 种 独立 性 ,这 就 是 随机 森林 的 关键 所 
在 。 在 大 数据 的 背景 下 ,随机 森林 非常 有 吸引 力 ,因为 决策 树 往往 是 独立 构造 的 ,诸如 
Spark 和 MapReduce 这 样 的 大 数据 技术 本 质 上 适合 数据 并 行 问题 。 也 就 是 说 ,总 体 答 案 的 
每 个 部 分 可 以 通过 在 部 分 数据 上 独立 计算 来 完成 。 随 机 森林 中 决策 树 可 以 并 且 应 该 只 在 特 
征 子 集 或 输入 数据 子 集 上 进行 训练 ,基于 这 个 事实 ,决策 树 构造 的 并 行 化 就 很 简单 了 。 

综 上 所 述 ,该 业务 采用 随机 森林 作为 分 类 方法 。 

(2) 抽样 手段 

对 于 不 平衡 分 类 问题 ,如 何 解 决 数据 分 配 的 问题 是 重 中 之 重 。 该 业务 中 我 们 借鉴 集成 
学 习 的 方法 ,使 用 同 态 集成 学 习 的 方法 对 用 户 进行 分 类 。 过 抽样 和 欠 抽 样 方 法 都 是 处 理 不 
平衡 数据 常用 的 方法 ,但 是 都 必然 会 丢失 样本 的 部 分 特征 ,寻找 一 种 既 能 降低 样本 不 平衡 带 
来 的 分 类 性 能 低下 也 能 防止 样本 特征 丢失 的 方法 是 抽样 手段 的 关键 。 最 理想 的 方案 便 是 对 
数据 进行 分 片 处 理 , 在 这 个 问题 中 ,多 数 类 指 “ 未 购买 ”, 少 数 类 指 “ 购 买 ”, 将 多 数 类 平均 分 成 
若干 个 子 集 ,每 个 子 集 都 和 少数 类 合并 为 一 个 新 的 训练 集 ,每 个 训练 集 独立 构建 分 类 器 ,最 
后 集成 各 个 分 类 器 的 结果 。 这 种 方法 能 够 在 不 丢失 样本 特征 的 前 提 下 有 效 减 弱 样 本 不 平衡 
的 现象 ,使 得 分 类 性 能 大 大 提高 。 具 体 示意 图 如 图 8-10 所 示 。 


未 购买 | wx 


未 购买 分 片 2| 购买 | - | 未 购买 分 片 ?| 购买 


未 购买 分 片 1 


图 8-10 分 片 示意 图 


(3) 评判 准则 
精确 度 是 评价 分 类 模型 的 重要 准则 ,但 是 对 于 不 平衡 分 类 问题 ,精确 率 并 不 能 反映 真实 
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的 分 类 性 能 ,为 此 ,针对 不 平衡 分 类 问题 ,学 术 界 提出 了 众多 新 的 评价 准则 ,主要 有 : 召回 率 
recall MEMAR precision, F-value 等 。 对 于 这 里 的 基于 分 片 技术 的 随机 森林 算法 ,我 们 使 用 
F-value 值 来 评判 算法 的 效果 。F-value 的 公式 如 下 所 示 : 
TP 


recall — 二 二 EN T 
"— | 

precision = TP 二 FE aa 

Phe (+E) X recall X precision T 


E. X recall 十 precision 
上 述 式 子 中 TP、FN、FP、TN 代表 混合 矩阵 中 的 值 , 其 含义 如 表 8-2 所 示 。 


R82 混合 矩阵 表 
被 分 为 正 例 被 分 为 负 例 
实际 为 正 例 TP FN 
实际 为 负 例 FP TN 


F-value 计算 公式 中 的 8 取 1。 这 个 值 是 国际 上 通用 的 评判 分 类 模型 优 劣 程度 的 参数 。 
算法 的 评判 过 程 是 迭代 运算 不 同 分 片 数 下 F-value 值 的 大 小 ,通过 该 值 确定 算法 在 分 片 数 
为 几 的 情况 下 准确 程度 最 高 ,最 后 再 应 用 到 真实 环境 下 进行 用 户 的 精准 分 类 。 

综 上 所 述 ,对 该 业务 的 用 户 分 类 问题 我 们 采用 “基于 分 片 技术 的 随机 森林 算法 ” 建 模 , 建 
模 的 流程 图 如 图 8-11 所 示 。 


输入 待 训练 数据 


M: From | to N his. nin 


MSN 


V 
切割 为 M 份 训练 集 Ti 建 模 结束 


随机 森林 算法 
Y 


计算 F-value 


图 8-11 用 户 分 类 的 建 模 流 程 图 


首先 对 训练 数据 的 多 数 类 从 1 至 N 进行 切 分 ,生成 M 份 多 数 类 分 片 ,每 一 个 分 片 都 加 
入 全 量 的 少数 类 数据 组 成 待 训练 集 。 随 后 分 别 对 每 一 个 待 训练 集 使 用 随机 森林 算法 ,得 出 
M 个 训练 模型 。 最 后 使 用 验证 集 验证 模型 效果 ,得 出 每 个 分 片 下 的 预测 “购买 "的 用 户 , 然 
后 合并 M 个 分 片 的 结果 ,得 出 所 有 的 “购买 "用户 并 计算 F-value 的 值 。 循 环 N 次 后 便 得 
到 了 N 个 F-value 的 值 ,选择 F-value 值 最 大 的 分 片 数 , 即 为 最 终 应 用 的 分 片 个 数 , 建 模 
A. 


第 8 章 保险 大 数据 分 析 案 例 


8.2.3 基于 内 存 计算 的 FP-Growth 关联 规则 挖掘 算法 


对 销售 策略 的 回归 检验 ,可 以 将 问题 转化 为 特征 对 购买 结果 的 影响 程度 分 析 ,该 影响 程 
度 可 以 看 作 一 个 条 件 概 率 , 即 : effect(f) 王 P(Gf|r 一 x) ,表示 某 特征 ,r= 二 x 表示 购买 的 结果 ， 
其 中 x=1 KR WR”, x50 表示 “未 购买 ”, 所 以 对 于 某 特征 对 “购买 ”这 个 结果 的 影响 程 
度 , 我 们 可 以 通过 计算 来 评判 。 
对 于 这 个 需求 ,很 自然 地 想到 使 用 贝 叶 斯 公式 直接 进行 计算 ,但 是 贝 叶 斯 公式 在 这 个 需 
求 下 存在 着 以 下 的 缺点 : 第 一 ,计算 烦琐 ,对 每 个 特征 都 需要 计算 一 次 ,效率 非常 低下 。 第 
二 , 贝 叶 斯 公式 只 能 通过 人 为 指定 特征 的 方法 计算 , 即 数 据 分 析 人 员 只 能 先 感性 地 估计 哪些 
特征 对 购买 结果 有 利 , 再 去 运算 。 在 多 特征 分 析 的 情况 下 ,特征 的 组 合 非常 多 ,这 种 方式 极 
难 发 现 隐 藏 的 影响 关系 。 第 三 ,使 用 贝 叶 斯 公式 计算 出 来 的 影响 程度 很 难 进行 评判 ,容易 出 
现 影响 程度 高 但 是 项 集 很 少 的 “ 假 策略 ”。 

综 上 所 述 ,最 终 考 虑 选择 使 用 关联 规则 分 析 的 方法 。 关 联 规则 分 析 最 早 应 用 于 “购物 
篮 ” 分 析 , 用 以 发 现 商 品 间 隐 藏 的 关联 关系 。 数 据 分 析 人 员 首 先 将 所 有 成 交 的 记录 以 表 的 形 
式 收集 起 来 ,然后 对 经 常 出 现在 一 起 的 商品 集合 进行 挖掘 ,比如 “尿布 ”与 “啤酒 ”经 常会 出 现 
在 同一 条 购物 列表 中 。 关 联 规则 是 形 如 X 一 > Y 的 蕴含 式 , 其 中 X 和 站 分 别称 为 关联 规则 
的 先导 和 后 继 。 关 联 规则 X 一 > Y, 由 支持 度 和 置信 和 度 确 定 ,通过 支持 度 过 滤 掉 小 的 项 集 , 然 
后 用 置信 和 度 分 析出 X 和 YY 之 间 的 关联 性 。 

关联 规则 分 析 的 常见 算法 有 两 种 : Apriori 算法 和 FP-Growth 算法 。Apriori 算法 是 最 
具 影 响 力 的 关联 规则 分 析 算 法 之 一 ,其 思想 简单 ,实现 方便 ,得 到 了 广泛 的 应 用 。 但 是 该 算 
法 需要 多 次 扫描 数据 库 并 产生 大 量 中 间 结 果 , 应 用 面 比较 窗 , 因 此 在 大 数据 环境 下 不 适宜 用 
来 做 关联 规则 的 分 析 。FP-Growth 算法 则 相反 , 它 采 用 分 而 治之 的 方法 ,将 数据 做 切 分 后 ， 
分 配 到 各 个 部 分 中 ,每 个 部 分 都 将 其 项 集 压 缩 到 一 个 频繁 项 集 树 (FP-tree) 中 ,然后 从 树 的 
子 节点 以 深度 优先 的 方法 挖掘 出 频繁 项 集 。FP-Growth 只 需要 扫描 数据 库 两 遍 , 并 且 将 频 
繁 项 集 计算 时 间 大 大 压缩 ,因此 在 时 间 和 空间 性 能 上 都 比 Apriori 算法 优异 许多 。 因 此 , 回 
归 检 验 分 析 最 终 决定 使 用 FP-Growth 算法 ,结合 Spark 分 布 
式 内 存 计 算 的 特性 对 算法 进行 重 构 , 提 出 了 “基于 内 存 计 算 
的 FP-Growth 关联 规则 挖掘 算法 ”。 

回归 检验 的 建 模 过 程 如 图 8-12 所 示 , 具 体 分 以 下 几 个 
su. 挖掘 出 置信 度 大 于 c 的 关 

CD 构建 数据 全 集 D, 每 行 都 包括 用 户 身份 证 号 ,特征 集 联 规则 ， 并 计算 if 系数 
合 中 的 特征 依次 为 “Vip 2 "2013/2014 连续 购买 2015 年 
中 断 客户 ”2014/2015 连续 购买 客户 ”VIP 客户 (贵宾 卡 及 
以 上 客户 )”“ 第 二 份 保 单 “ 普 通 客户 持 3 份 合同 /保费 2 万 元 以 上 / 近 两 年 购买 过 ”普通 客 
户 积分 30000 以 上 且 近 两 年 购买 过 ”“ 止 收 客户 ”和 “是 否 购 买 该 产品 ”。 

(2) 挖掘 频繁 项 集 , 设 定 支持 度 为 s, 控 掘 出 现 次 数 大 于 s 的 子 集 。 

G) 挖掘 关联 规则 , 设 定 置信 和 度 ,挖掘 置信 程度 大 于 c 的 规则 ,并 通过 计算 提升 度 
(lift) 系 数 来 评判 关联 规则 的 相关 性 。 


构建 竺 分析 数据 全 集 D 


过 滤 支 持 度 小 于 s 的 项 集 


图 8-12 回归 检验 模型 流程 图 
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lift 系数 是 置信 度 与 期 望 支持 度 的 比值 ,通俗 地 解释 就 是 反映 了 “特征 A 的 出 现 ? 对 特 
1E BB 的 出 现 概率 发 生 了 多 大 的 变化 。 置 信和 度 (confidence) 是 对 关联 规则 的 准确 度 的 衡量 ， 
支持 度 (support) 是 对 关联 规则 重要 性 的 衡量 。 支 持 度 大 说 明了 这 条 规则 在 所 有 事务 中 有 
较 大 的 代表 性 ,因此 支持 度 越 大 ,关联 规则 越 重要 。 有 些 关联 规 则 置信 度 虽 然 很 高 ,但 支持 度 
却 很 低 , 说 明 该 关联 规则 实用 的 机 会 很 小 ,因此 也 不 重要 。lift 系数 结果 含义 如 公式 (8-4) 


所 示 。 
«1 
| 1 
>1 (positive) 


当 lift 小 于 1 时 ,表示 特征 的 影响 为 负 相 关 ,lift 等 于 1 时 ,特征 之 间 相 互 独立 , 互 不 影 
响 , 当 lift 大 于 1 时 ,特征 的 影响 为 正 相关 。 


8.3 环境 准备 


(8-4) 


(negative) 
(independence) 


在 开始 案例 之 前 ,首先 介绍 一 下 整体 开发 环境 的 搭建 ,我 们 将 基于 IntelliJ IDEA + 
Maven 搭建 Spark 开发 环境 , 表 8-3 是 我 们 的 软件 选 型 。 


表 8-3 软件 选 型 
操作 系统 /软件 名 称 版 本 号 操作 系统 /软件 名 称 版 本 号 
Windows 10 IntelliJ IDEA 2016.3 
Java 1.8.0 74 Maven 3.3.9 
Scala 2.11.8 Spark 2.0.0 


注意 : Spark 5 Scala 的 版 本 必须 保证 是 兼容 的 ,否则 将 会 在 实验 过 程 中 出 现 问题 。 至 
于 如 何 查询 某 个 版 本 的 Spark 对 应 使 用 的 Scala 版 本 ,可 以 在 Spark 对 应 版 本 的 官方 文档 中 
找到 ,这 里 以 Spark2. 0. 0 为 例 , 通 过 以 下 网 址 : http://spark. apache. org/docs/2.0.0/, 可 
以 看 到 如 图 8-13 所 示 的 信息 , 即 Spark2. 0.0 支持 Scala 的 版 本 为 2. 11. x. 


Spark runs on Java 7+, Python 2 6+/3 4+ and R 3.1+. For the Scala API, Spark 2 0.0 uses Scala 2.11. You will need to use a compatible 
Scala version (2.11.). 


图 8-13 Spark2. 0. 0 版 本 信息 
那么 接 下 来 开始 开发 环境 的 搭建 : 
(1) 到 Java 官网 (http://www. oracle. com/technetwork/java/javase/downloads/ 


index. html) 下 载 并 安装 JDK, 并 配置 Java 环境 变量 (包括 JAVA_HOME、Path、 
CLASSPATH) ,可 参考 表 8-4, 


表 8-4 Java 环境 变量 示例 


JAVA_HOME C:\Program Files\Java\jdk1. 8.0. 74 
Path JAVA HOME bin; %JAVA_HOME%\jre\bin 
CLASSPATH «3 %JAVA_HOME%\lib\dt. jar; %JAVA_HOME%\lib\ tools. jar 
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(2) 同样 地 ,到 Scala 官网 (http://www. scala-lang. org/) 下 载 并 安装 Scala, 并 配置 环 
境 变 量 ,可 参考 表 8-5。 
RES Scala 环境 变量 示例 


SCALA_HOME C:\Program Files (x86) Vscala 
Path %SCALA_HOME%\bin 


(3) FA Maven(http://maven. apache. org/) ,这 里 我 们 下 载 的 是 apache-maven-3. 3. 
9-bin. zip, 然 后 配置 相关 环境 变量 ,可 参考 表 8-6. 
表 8-6 Maven 环境 变量 示例 
M2_HOME | E:\Program Files\apache-maven\apache-maven-3. 3.9 


Path %M2_HOME% \bin 


(4) 下 载 并 安装 IntelliJ IDEA (http://www. jetbrains. com/idea/download/ # section = 
windows) ,然后 安装 Scala 插件 ,流程 如 下 : 

AK UE FE“ Configure" “ Plugins” >“ Browse repositories”, 输 入 “scala”, 如 图 8-14 所 
示 , 然 后 安装 即 可 。 


Browse Repositories x 
(Qr scala ©) Q) (Category: All) 
Sort by: name *| LANGUAGES 
PLUGIN DEVELOPMENT one monthaga | Scala 
a MoreUnit 10925 eire 
UNIT TESTING one month ago 
SBT 347.263 teint, || 全 和 和合 5355603 downloads 
SD one year ago || UPdated 2017/1/10 v2016.3.6 
SBT ChangelistAction 13706 tetetetee The SEE plugin extends IntelliJ IDEA's toolset with 
4 support for ‘SBT, js, Hocon, and Play 
TOOLS INTEGRATION 4 years ago Framework. Support for SBT and Hocon is 
SET Bane 5 available for free in IntelliJ IDEA Community Edition, 
G manar 30537 ***** IT While support for Play Framework and BEIE js is 
BUILD 3yearsago available only in IntelliJ IDEA Ultimate. 
Vendor. 
JetBrains 
a Scala Imports Organizer 46045 titit 
FORMATTING 2 years ago |) "nemen 
cus, Nu ipJhwww jetbrains. 
a imt 21,586 ririninie 'et/confluence/display/SC) lugin+for: UD. 
FORMATTING 3weeksago | EA 
Seal lava to Scala converter 2204 dirii - 


图 8-14 Scala 插件 


接着 在 IntelliJ IDEA 中 配置 Maven (KK iH f£" Configure" "Setting" . (E 8 R HE fj A 
“maven”, 可 以 看 到 如 图 8-15 所 示 ,进行 相关 参数 配置 。 

(5) 最 后 ,可 以 开始 创建 一 个 Maven 项 目 了 .项 目 命名 为 insuranceBigData, 并 配置 一 
些 相关 参数 ,分 别 见 图 8-16 至 图 8-18。 
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Bl settings x 
Q maven Build, Execution, Deployment > Build Tools > Maven © For current project 
下 Appearance & Behavior C Work offline. 
Moris C Use plugin registry 
men Baak gek panii 
Editor 
d - [ Print exception stack traces. 
Inspections 
Fis end Code Tenplsine C Always update snapshots. 
Live Templates Output eve: (^ HH 
Plugins ‘Checksum policy: No Global Policy 
odio sts Multiproject build fail policy: [Default 
* Build Tools 
Dr — Snr ek BY ones 
cm SS | 
Ignored Files Maven home directory: Program Fles/spache-maven/apache-maven-3.3.9 H a 
New (Version: 3.3.9) 
Lela Med User settings fle: CAUsers\wzmi\.m2\settings xml =] O Override 
RAS LJ 
Local repository: C\Users\wzm\.m2\repository ‘| C Override 
Cerea] Cree] 
8-15 IntelliJ IDEA 的 Maven 配置 
园 New Project x 
‘Wh Java Enterprise 
QC JBoss Project SDK: | I 1.8 Gava version “1.80 74") M v 
Bae C Create from archetype Add Archetype... 
@ Clouds 
Spring > comatlassianmaven.archetypes:bamboo-plugin-archetype 
beck > com.stlassian.maven.archetypes:confluence-plugin-archetype 
oe > comatlassian maven.archetypesjira-plugin-archetype 
Ab Android > com.rfcmaven.archetypesjpa-maven-archetype 
(© Intelli) Platform Plugin > deakquinetjbossccjbosscc-seam-archetype 
6 Spring Iniielizr > netdatabinderdata-app 
> netliftwebHift-archetype-basic 
| Meven 20.2... 
© Gradle netsf.meven-hermaven-erchetype-her 
@ Groow. P^ netsfmaven-sarmaven-archetype-sar 
© Gron > orgapsche.camelarchetypes:camel-archetype-activemq 
a > orgapache.camel.archetypes:camel-archetype-component 
Q Grails ne RITE 
Sl Scala P org.apache.camel.archetypes:camel-archetype-scala 
P^ org.apache.camel.archetypes:camel-archetype-spring 
区 Kotin 六 orgapache camelarchetypescamel-archetype-war 
© succ Web > org.apache.cocoomeocoon-22-archetype-block 


Previous 


NZE 09) 


816 ”创建 项 目 


ee, aa 


Artifactld | insuranceBigData 


Version | 1.0-SNAPSHOT 


[E 


837 ”创建 项 目 
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ES 


Project location: | EAProgram FilesVetBrains intelli) IDEA 2016.3\workspace\insuranceBigData -] 


图 8-18 创建 项 目 


接着 依次 选择 “File”->“Project Structure"—"Global Libraries"— 十 一 “Scala SDK”, 
选择 版 本 2. 11. 8, 如 图 8-19 所 示 。 


B] select JAR's for the new Scala SDK x 
jon | — Version | | 
2.10.6 
wy 2421 
Maven 270 
Maven 2.10.0 
Maven 2110 


(uomini) (amma ES e 


图 8-19 Scala SDK 


添加 完 Scala SDK 后 , 在 Project Structure 窗口 的 中 , 选择 “Modules” 一 
“Dependencies” 一 于 一 “Library”, 然 后 选择 上 一 步 导 入 的 Scala SDK ,如 图 8-20 所 示 。 


国 Project Structure 


t> 
E] Choose Libraries 


* illii Global Libraries 


CEZ La < | 
EH om) DJ 


图 8-20 导入 Scala SDK 
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然后 在 项 目 根 目 录 下 创建 sourceData 文件 夹 ,以 及 experimentl, experiment2 和 
experiment3 子 文件 夹 , 再 在 main 下 新 建 scala 文件 夹 ,同样 在 其 下 创建 experimentl、 
experiment? 和 experiment3 子 文件 夹 ,最 后 将 每 个 实验 用 到 的 数据 集 文档 放 在 sourceData 
下 的 每 个 对 应 实验 文件 夹 下 ,而 每 个 实验 的 源 代码 则 写 在 scala 下 的 对 应 实验 文件 夹 下 ,如 
图 8-21 所 示 。 


MsourceData 
v Be experiment1 
B datasetcsv 
v Bu experiment? 
3 datasetocsv 
@ datasetlcsv 
Y Ba experiment3 
i datasetcsv 
v msc 
* Bu main 
Bi: resources 
Y Bu scola 
v Bu experiment! 
@ Code 
Y Ba experiment2 
@ Code2 
Y Bx experiment3 
@ Code3 


图 8-21 部 分 目录 结构 
最 后 修改 项 目的 pom. xml 文件 ,如 图 8-22 所 示 。 


<?xml version-"1.0" encoding="UTF-8"?> 
<project xmlns-"http://maven.apache.org/POM/4.0.0" 
xmins:xsi-"http://www.w3.0rg/2001/XMLSchema-instance" 
xsi:schemaLocation*"http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-41.0.0.xsd"» 
«nodelVersion»4.0.0«/modelVersion» 


«groupId»cn.experimentc/groupId» 
<artifactId>insuranceBigData</artifactId> 
<version>1.0-SNAPSHOT</version> 


<repositories> 
<repository> 
<id>ali</id> 
<name>aliyun maven</name> 
«url»http://maven.alivun.com/nexus/content/groups/public/«/url» 
<layout>default</layout> 
</repository> 
</repositories> 
<dependencies> 
<dependency> 
<groupId>org. apache. spark</groupId> 
<artifactId>spark-core_2.11</artifactId> 
<version>2.0.0</version> 
</dependency> 
<dependency> 
<groupId>org. apache. spark</groupId> 
<artifactId>spark-mllib 2.11</artifactId> 
<version>2.0.0</version> 
</dependency> 
<dependency> 
<groupId>org. apache. spark</groupId> 
<artifactId>spark-graphx_2.11</artifactId> 
<version>2.0.0</version> 
</dependency> 
</dependencies> 
</project>| 


8-22 pom. xml 
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8.4 实现 方法 


整个 案例 的 实现 将 分 为 3 个 实验 进行 ,主要 是 为 了 对 应 8. 1. 2 节 提 到 的 三 个 业务 场景 ， 
这 里 分 别称 为 : 基于 GraphX 的 并 行家 谱 挖掘 、 基 于 分 片 技术 的 随机 森林 模型 用 户 推荐 以 
及 基于 FP-Growth 关联 规则 挖掘 算法 的 回归 检验 。 


8.4.1 基于 GraphX NFER EE 


本 节 主 要 介绍 基于 图 计算 的 并 行家 谱 挖掘 实验 ,主要 包括 了 相关 数据 的 准备 .程序 的 实 
现 和 最 后 的 结果 分 析 。 


1. 数据 准备 dataSet 
本 节 用 到 的 数据 集 为 dataSet csv, WARRE E a a r 
字段 的 含义 可 参考 图 8-23。 ere 
13565, sS x 了 


注意 : 源 文 件 不 包含 每 个 字段 的 标签 名 ,只 包含 数 mom tid: 受 着 人 id，relation: 投 保 人 与 
蔓 人 关系 ，tsex: 投 保 人 性 别 ，bsex: 受 冀 人 性 别 

据 , 图 中 的 字段 名 只 是 为 了 方便 介绍 ,其 次 ,字段 之 间 以 
过 号 分 隔 , 后 面 两 个 实验 的 数据 同样 如 此 。 图 8-23 样 例 源 数据 

2. 程序 代码 解析 

(1) 构建 点 集 和 边 集 。 从 数据 集 dataSet. csv 中 读 取 数据 ,构建 点 集 users 以 及 边 集 
relation, 出 于 数据 的 原因 以 及 简单 起 见 ,点 集 的 属性 为 用 户 id 本 身 , 边 集 的 属性 为 
(relation, tsex, bsex) ,具体 代码 如 图 8-24 所 示 。 


val family = sc. textFile("sourceData/experimentl/datsSet. txt").map { 1 => 
val items =1. split(^, ^) 
(items(0), items(1), items(2), items(3), items(4)) 
} 
val user: RID[(VertexId, String)] = family. map { line => 
(line. 1 + "," + line. 2) 
}. flatMap(line => line. split(^, ")) 
distinct() 
map(line => (line toLong, line)) 
vel relation: RÜD[Edge[(String String String)]] = family.mep { 
line => 
Edge(line. 1 toLong line. 2 toLong attr = (line 3, line. 4, line .5)) 


图 8-24 点 集 与 边 集 的 构建 


(2) 构造 图 与 计算 连通 分 量 。 将 边 集 与 点 集 构建 完毕 后 ,调用 GraphX 的 Graph 类 构 
wal graph = Graph(user, relation) 建 图 ,然后 调用 connectedComponents O 函数 计算 连通 分 
val ce = graph.connectedComponents() fit ,具体 实现 如 图 8-25 tas. 

(3) 进行 家 谱 挖掘 ,并 保存 挖掘 结果 ,代码 如 图 8-26 
示 。 


8-25 构建 图 与 计算 连通 分 量 
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val edges = fanily nmap [ 
line => 
(line. 1. toLong (lime. 1, line. 2, line. 3, line. & line. 5)) 
】 join(verts).map { 
line => 
(line, 2..2, (line. 2. 1) 
}. groupBy(line => line).map(line => (line. 1, line. 2.count(a => 1 = 1))) 


val data = edges.map { 
line => 
(line. 1. 1.toLong (line. 1. 2. L line. 1. 2. 2. line. 1. 2. 3, lime. 1. 2. 4 line. 1. 2. 5, line. 2)) 
}. groupBy(Line => line. 1).map { 
line => 
(line. 1, line, 2 map(line => “[” + line. 2 + 7]7). toSeq) 


) 


data repartition(1). saveAsTextFile("output/experimentl/fzmilyResult^) 


图 8-26 家 谱 挖掘 
3. 程序 运行 及 结果 分 析 Y monpa 
在 我 们 之 前 创建 好 的 项 目 中 写 上 代码 ,运行 程序 并 等 待 程 T Samye 
序 运行 完毕 后 ,我 们 便 可 以 看 到 ,在 项 目的 根 目 录 下 已 经 生成 站 
家 谱 挖掘 的 结果 ,如 图 8-27 所 示 。 ccm 
在 output/experimentl/familyResult 目录 下 ,打开 文件 
part-00000 ,可 以 看 到 如 图 8-28 所 示 的 数据 集 。 图 8-27 挖掘 结果 文件 


eaxr82 oho nm 


(41234, Li st ([(41234, 132539, S, F,M.1)])) 

(65722, List ([ (65722, 158080, P,M, P, 2)])) 

(28730, List ([ (28730, 120490, C, F,M, 1)], [(40363,35921,S,M, P, 1)], [(35921, 40963, P, F,M,2)], [(35921, 28730, R, F, P, 3)])) 
(91902, List ([ (91902, 188481, S, F,M,1)])) 

(68522, List ([ (68522, 161197, S, M, P, 1)])) 

(74884, List ([(74884, 168336, P, P, P, 2)])) 

(82512, List ([ (82512, 177223, P.M. F,2)])) 

(32676, List ([ (32676, 124335, P, M, P, 1)], [(32676, 132021, P, M, F, 1)])) 


图 8-28 ”部 分 家 谱 挖掘 结果 


可 以 看 到 ,结果 数据 集 的 每 行 代表 一 个 家 庭 , 第 一 个 数字 代表 家 庭 的 编号 ,List 为 该 家 
庭 所 有 关系 的 集合 , 即 程序 执行 过 后 每 个 家 庭 的 原始 结果 ,如 图 8-29 所 示 。 


(28730, List (((28730,120490,c,F,M,1)], ([(40363,35321,8,M,F,1)], ( (35921, 40363,P,F,M,2)], tasses amo rena 


1 


J 


家 庭 id 


每 一 个 中 括号 代表 一 个 连通 子 分 量 ， 含 义 为 (投保 人 id， 受 益 人 id， 


投保 人 与 受益 人 的 关系 ， 投 保 人 性 别 ， 受 益 人 性 别 ， 重 复 次 数 ) 


图 8-29 ”原始 挖掘 结果 


依据 家 庭 中 每 个 连通 子 分 量 的 值 , 即 可 构建 出 家 庭 的 图 谱 。 结 合 交易 数据 , 即 可 查询 出 
家 庭 中 每 个 成 员 的 所 有 自然 属性 以 及 曾经 买 过 何 种 保险 产品 。 作 为 扩展 ,可 以 尝试 把 挖掘 
结果 通过 可 视 化 的 方式 展现 出 来 ,使 得 用 户 的 家 谱 信息 清晰 地 展现 出 来 。 
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8.4.2 基于 分 片 技术 的 随机 森林 模型 用 户 推荐 


本 节 主 要 介绍 基于 分 片 技术 的 随机 森林 模型 对 历史 交易 数据 进行 预测 及 用 户 推荐 , 主 
要 包括 了 相关 数据 的 准备 、 程 序 的 具体 实现 和 最 后 的 结果 分 析 。 

1. 数据 准备 

本 节 用 到 的 数据 集 共 有 两 个 ,对 应 文档 dataSet0. csv 和 dataSetl. csv, HP dataSet0 
. csv 是 没有 购买 某 一 保险 产品 的 用 户 的 数据 集 , 而 dataSetl. csv 则 是 购买 了 某 一 保险 产品 
的 用 户 的 数据 集 。 两 个 数据 集 均 包括 了 10 个 维度 ,分别 为 : 用 户 id vip 类 型 有 效 保费 、 是 
18 vip\ 年 龄 层 、 近 三 年 是 否 购买 短期 长 险 、 近 一 年 是 否 购买 短期 长 险 、 近 三 年 是 否 购买 长 险 、 
近 一 年 是 否 购买 长 险 和 是 否 购 买 ,其 数据 结构 和 样 例 数据 如 图 8-30 及 图 8-31 所 示 。 很 容 
易 可 以 看 出 ,dataSet0. csv 数据 集 比 dataSetl. csv 要 大 得 多 ,这 也 就 对 应 了 在 设计 环节 讨论 
到 的 二 分 类 问题 的 正 例 与 负 例 比例 相差 较 大 的 问题 。 


dataSet0 
userld fl f2 18 f4 15 £6 {7 £8 r 
1 2 5 0 4 1 0 1 0 0 
2 2 3 0 4 0 0 1 0 0 
3 2 3 0 3 0 0 0 0 0 
5 2 3 0 4 0 0 1 1 0 
userld: 用 户 id，f1-f8， 用 户 特征 ，r， 购 买 结果 
图 8-30 样 例 源 数据 
dataSetl 
userId — fl f2 £3 f4 £5 £6 £7 f8 r 
4 6 6 1 5 1 1 1 1 1 
6 4 6 1 5 1 1 1 1 1 
75 2 3 0 4 0 0 1 1 1 
134 2 3 0 3 0 0 1 1 1 
userId: 用 户 id，fl-f8: APRE, r: 购买 结果 
图 8-31 样 例 源 数据 
2. 程序 代码 解析 


(1) 将 数据 打包 成 LabeledPoint 格式 。 为 了 接 下 来 对 数据 分 片 的 方便 ,首先 将 原始 数 
据 集 切 分 为 “购买 "和 “未 购买 ”两 个 子 集 ,分 别 命 名 为 rl 和 r0。 算 法 使 用 Spark MLlib 中 的 
LabeledPoint 格式 对 数据 进行 封装 ,具体 代码 实现 如 图 8-32 所 示 。LabeledPoint 格式 为 点 
值 对 ,由 一 个 特征 值 x 和 一 个 向 量 Vector 组 成 。 首 先 使 用 textFile 方法 将 数据 转换 成 RDD 
格式 ,然后 以 逗号 为 单位 对 每 一 行 数据 进行 切割 。 然 后 将 “是 否 购买 ”赋值 到 特征 值 x, 待 训 
练 的 八 个 特征 封装 为 一 个 稀 玖 向 量 ,由 sparse 方法 完成 赋值 。 

(2) 对 数据 集 作 分 片 处 理 。 首 先 将 ro 的 数据 平均 分 为 M 份 ,然后 每 一 份 数据 都 拼接 全 
量 的 rl 数据 组 成 训练 集 。 具 体 代码 实现 如 图 8-33 所 示 。 首 先 构 建 随机 切 分 的 种 子 数组 ar. 
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MBER 
val ri = se textFile("sourceDate/experiment2/dateSet!.csv”).map { line => 
val parts = line. split(^, ) 
LabeledPoint(parts(9).teDouble, Vectors. sparse(8, Array(0, 1, 2, 3, 4 5, 6, 7), 
Array(parts(1). teDouble, parts(2) teDouble, parts(3). toDouble, 
parts(4).toDouble, parts(5).toDouble, parts(6).toDouble, parts(7).toDouble, parts (8). toDouble))) 


}. cache() 
Jf coo 
val x0 = sc textPile("sourceData/experiment2/dataSet0. csv). map { line => 
val parts = line, split(^, ^) 
LabeledPoint(purts(9). t 'ectors. sparse(8, Array(0, 1, 2, 3, 4 5, 6 7), 
Array(parts(1) erts(2). toDouble, parts(3). toDouble, 
parts(4).toDouble, parts(5). toDouble, parts(6).toDouble, parts(7).toDouble, parts(8). toDouble))) 


}. cache() 


8-32 LabledPoint 封装 


随后 使 用 randomSplit 函数 对 r0 数据 集 作 切 分 。 随 后 循环 地 将 rl 数据 与 切 分 后 的 数据 拼 
接 起 来 。 最 后 将 待 训练 的 数据 集 按 3 : 7 的 比例 随机 切 分 为 训练 集 ”" 和 “预测 集 ”。 


val ar = new Array[Double] (20) 
fer (i <- 0 to mm) { 
w()-21 
) 
ARRSH 
val randomItem = r0.randomSplit(ar, seed = 13L) 


HENA ANNEMARIE 
for (n (- 0 to mm) { 
val data = r1. union(randonIten(n)) 
// SERERE WER” UR RAR” 
val splits = data randonSplit(Array(0.7, 0,3)) 
val (trainingData, testData) = (splits(0), splits(1)) 


图 8-33 对 数据 作 分 片 处 理 


(3) 模型 训练 。 将 上 一 步骤 中 的 数据 输入 到 随机 森林 算法 中 并 配置 相关 参数 ,经 过 一 
系列 的 训练 后 生成 模型 。 具 体 代 码 如 图 8-34 所 示 。 参 数 配 置 方面 ,numClasses 表示 分 类 
的 种 类 数 ,此 处 为 2,numTrees 为 森林 中 树 的 棵 数 ,featureSubsetStrategy 为 子 树 构建 规则 ， 
此 处 由 算法 决定 ,impurity 为 损失 函数 ,算法 采用 “gini” 函 数 ,maxDepth 为 数 最 大 深度 ， 
maxBins 为 最 大 桶 个 数 。 

(4) 结果 预测 。 将 历史 的 交易 数据 输入 到 模型 中 ,预测 出 有 可 能 购买 的 用 户 。 具 体 代 
码 如 图 8-35 所 示 。 此 处 的 关键 是 在 于 要 将 隐藏 在 特征 中 的 用 户 id( 即 “point. _2”) 取 出 来 ， 
与 预测 结果 组 成 < 用 户 id, 结 果 > 键 值 对 。 随 后 将 各 个 分 片 的 结果 合并 到 result 集合 中 。 


val nmClasses = 2 


///8EEXBEIBESM 


wal categoricalfeaturesInfo = Map[Int, Int]() ayPredict = predictData map { point => 


val nuxirees = 3 


val prediction = model. predict(point. 1) 


val featureSubsetStrategy = “auto” (peint. 2, prediction) 


val impurity = ^gini^ 


val maxDepth = 5 


) 
BARR SRERUS RARER 


if (n =0) MBER 
wal asslins = 32 p NN Gal 
JE } else ( [A CITAR 
wal model = RandonForest. trainClassifier(treiningData, mumClasses, categoricalFeaturesInfo, result = result. union(myPredict) 
mumlrees, featureSubsetStrategy, impurity, maxDepth, maxBins) } 


图 8-34 ”模型 训练 图 8-35 结果 预测 
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(5) 计算 评判 参数 。 这 部 分 的 代码 具体 如 图 8-36 所 示 。 在 得 出 预测 结果 result 后 ,要 
与 历史 交易 数据 中 真正 购买 的 用 户 作 比 对 ,得 出 模型 预测 准确 的 集合 xx。 之 后 便 是 分 别 计 
算 召 回 率 recall\ 准 确 率 precision 和 F-value 值 , 供 后 续 模 型 分 析 使 用 。 


JRREOLE, UAP idh S Ol reduceByKoy SE fE 
val r ~ result reduceBySey((x, y) -> (x + y)) 
'reduceByRtey 2 EPUGA NIM. BETA 
val rx = r. sortBy(l -> L2, false). map(1 -> (1 1, 1.2 / (num + 1))) 
println(^total - " + rx count()) 
println(^total predict - " + rx filter(1 -> 1._2 !- 0). count) 


REFER 
rx. repartition(1). saveAsTextFile(“output/experiment2/split” + (num + 1)) 


as EATEN 


. split(*, “) 


queis (APid 1 
(parts (0), parts (9). toDouble) 
). cache 0 


TEER, MireduceByKoy 4 3, RAMBKF LTR 
val xx ~ duibi. union(peoplex).reduceByKer((x, y) -> x + y). filter(1 -> 1._2 > 1) 
println(“total correct = ”+ xx count()) 
val a ~ xx count. toDouble 
val b ~ rx filter(1 -> 1._2 > 0). count(). toDouble 
val c ~ peoplex. count (). toDouble 
were 
println("split ”+ 
(num + 1) + " precision is 
FARER 
println("split 
StF! 
println("Fi is “+ (2#a/b#a/c)/ (a/b+a/c) + "Wa" 


+a/>) 


+ (num + 1) +” recall is ^ +a / c) 


图 8-36 计算 评判 参数 


(6) 保存 用 户 的 分 类 情况 。 用 户 分 类 的 具体 代码 如 图 8-37 所 示 。 最 终 推 荐 的 结果 
result 经 过 reduceByKey 的 操作 之 后 将 各 个 分 片 的 结果 相 加 到 一 起 ,随后 再 做 map 处 理 ,将 
分 片 的 分 类 结果 除 以 分 片 的 总 数 ,得 出 该 用 户 最 终 购买 的 概率 大 小 ,生成 rx 数据 集 并 保存 。 
rx 数据 集 即 算出 的 输出 结果 predictResult, 其 数据 结构 为 “(用 户 id, 购 买 概率 )”。 


(model save (se, "target/ter 


) 


'reduceByKey 2 EDU gH E0130, S08 EIS PEE 
val rx ~ rcorthy(l -> 1._2, false) zap(l -> (l.i, 1.2 / (num + 1))) 


println("total - ” + rx count) 


printin(“total predict - ”+ rx filter(l -> l. 2 !- 0). count()) 


GOEREE 
rx. repartition(1). savedsTextFile("output/experiment2/split” + num) 


8-37 计算 用 户 分 类 结果 


3. 程序 运行 及 结果 分 析 

将 代码 写 好 之 后 ,运行 程序 并 等 待 程序 运行 完毕 后 ,从 输出 信息 中 可 以 看 到 每 一 个 分 片 
数 随机 森林 模型 对 历史 交易 数据 计算 得 出 的 recall, precision 和 F-value 值 的 结果 , 取 分 片 
数 为 10 为 例 ,如 图 8-38 所 示 。 


$n» 云 计 算 与 大 数据 技术 理论 及 应 用 


分 片 数 为 10 的 


Test 
Test 
Test 
Test 
Test 
Test 
Test 
Test 
Test 
Test 
avg 


total correct 
split 10 precision is 0.1593474855506941 
split 10 recall is 0.5676624813585414 


Error 
Error 
Error 
Error 
Error 
Error 
Error 
Error 
Error 
Error 


0 
1 
2 
3 
4 
5 
6 
7 
8 
3 


error = 


IEA 中 


0.21719961240310076 
0.223355846146477 
0.2194713951154232 
0.21383617812529798 
0.2160603584987265 
0.21333968556455454 
0.21656776643721815 
0.2165498832165499 
0.21688781664656212 
0.21731158930811542 


0.21705801314620254 
total = 508513 
total predic 


74052 
11800 


Fl is 0.2488427756513671 


图 8-38 分 片 数 为 10 的 评判 参数 
结果 中 的 “Test Error” 为 每 个 分 片 中 随机 森林 的 预测 错误 率 ,“avg error ”为 所 有 分 片 的 


平均 错误 率 ,“total” 表 示 分 析 数 据 的 总 量 ,“total predict” 表 示 通 过 模型 预测 为 “购买 ”的 总 
数 ,“total correct” 为 与 真实 购买 情况 比 对 后 预测 正确 的 总 数 ,“precision” 为 准确 率 ,“recall” 


为 召回 率 ,“F1” 为 F-value fÉ. 


此 次 程序 运行 后 每 个 分 片 的 准确 率 、 召 回 率 以 及 F-value 值 如 图 8-39 一 图 8-41 所 示 。 


准确 率 大 小 


准确 率 变化 趋势 


————— L 
12345267 8 9 1011 12 13 14 15 16 17 18 19 20 


分 片 数 / 片 


图 8-39 ”准确 率 变 化 趋势 图 


召回 率 变化 趋势 


召回 率 大 小 


PE TE ES do] j| 1 ae eee EE ee 
123456789 10 11 213 14 15 16 17 18 19 20 


分 片 数 / 片 


图 8-40 召回 率 变化 趋势 图 
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F-value 变 化 趋势 


F-value 


12345 6 7 8 9 1011 12 I3 14 15 16 17 18 19 20 
分 片 数 / 片 


图 8-41 F-value 变化 趋势 图 


由 上 述 三 图 ,可 以 得 出 以 下 结论 , 当 数 据 不 做 分 片 处 理 的 时 候 ,由 于 多 数 类 的 占 比 太 大 ， 
在 分 类 过 程 中 的 决策 过 程 严 重 偏向 了 多 数 类 ,造成 少数 类 在 分 类 过 程 中 被 忽视 。 在 最 终 的 
分 类 结果 中 ,召回 率 、 准 确 率 和 F-value 均 为 零 ,证 明 在 最 终 的 分 类 结果 中 并 没有 分 出 “ 购 
买 " 用 户 。 当 分 片 数 从 2 开始 ,准确 率 呈 下 降 趋势 ,因为 分 片 数 的 增加 ,使 得 少数 类 的 特征 不 
断 加 强 , 于 是 在 每 个 分 片 中 分 出 的 “购买 ”用户 将 越 来 越 多 ,造成 准确 率 不 断 下 降 ; 另 一 方 
面 , 当 分 片 数 从 2 开始 ,召回 率 却 呈 s 上 升 趋势 ,因为 随 着 分 片 数 的 增加 ,分 出 的 “购买 ?用 户 越 
来 越 多 ,命中 真实 购买 用 户 的 概率 自然 不 断 增加 ,在 极端 情况 下 ,将 所 有 用 户 都 分 类 为 “ 购 
买 ”, 召 回 率 自然 为 100%。 

这 就 是 为 什么 需要 F-value, F-value 能 够 平衡 准确 率 和 召回 率 大 小 的 关系 ,使 得 分 类 
模型 能 够 在 兼顾 准备 率 的 同时 扩大 分 类 基数 ,F-value 越 大 ,分 类 模型 的 表现 越 优 秀 。 例 如 ， 
分 类 模型 只 分 出 了 一 个 “购买 ”用户 ,而 经 过 验证 之 后 ,该 用 户 确实 购买 了 该 保险 ,模型 的 准 
确 率 为 100% ,但 是 对 于 决策 者 来 说 ,这 样 的 分 类 方法 是 没有 效益 的 , 反 过 来 说 ,分 类 模型 如 
果 分 出 了 一 大 堆 的 “购买 "用户, 经 过 验证 之 后 发 现 真实 购买 的 用 户 大 多 数 都 在 这 堆 客 户 中 
间 , 但 是 对 于 决策 者 来 说 ,这 和 撒 网 式 的 销售 方式 无 异 , 因 此 这 种 方法 也 是 缺乏 效益 的 。 

在 此 业务 背景 下 ,F-value 的 值 呈 先 上 升 后 下 降 的 趋势 , 当 分 片 数 为 6 时 ,分 类 模型 的 
F-value 值 达到 最 大 ,结合 设计 方案 环节 提 到 的 内 容 ,F-value 越 大 ,分 类 模型 的 表现 越 优秀 。 


因此 ,我 们 仅 以 此 次 程序 运行 结果 分 析 而 言 , 分 片 数 为 6 时 (78242, 1.0) 

的 模型 分 类 效果 最 好 , 接 下 来 查看 一 下 分 片 数 为 6 的 模型 uit) 

对 历史 数据 的 预测 结果 , 打开 output/experimentl/ GE pese 
familyResult 目录 下 的 part-00000 文件 ,可 以 看 到 预测 结 (214682, 0 8333333333333334) 
果 数 据 , 如 图 8-42 所 示 。 图 8-42 ”部 分 用 户 推荐 结果 


也 就 是 说 ,这 个 分 片 数 为 6 的 随机 森林 模型 认为 id 为 
27422 的 客户 100% 购 买 该 保险 产品 ,而 id 为 84507 的 客户 则 有 83. 33% 的 可 能 性 购买 该 产 
品 , 因 此 业务 员 应 该 优先 选择 向 id 为 27422 的 客户 推销 该 款 保险 产品 。 


8.4.3 基于 FP-Growth 关联 规则 挖掘 算法 的 回归 检验 


本 节 主 要 介绍 基于 内 存 计 算 的 FP-Growth 关联 规则 挖掘 算法 ,首先 会 阐述 相关 数据 的 
准备 ,随后 再 介绍 程序 的 具体 实现 过 程 ,最 后 对 运行 结果 进行 详细 的 分 析 。 


云 计 算 与 大 数据 技术 理论 及 应 用 


1. 数据 准备 

本 节 用 到 的 数据 集 为 dataSet. csv, 源 数据 的 格式 及 字段 的 含义 可 参考 图 8-43。 数 据 集 
包括 了 10 个 维度 ,其 中 字段 userid 表示 用 户 id. FE v DL ag 的 含义 请 见 表 8-1 ,字段 
表示 购买 结果 (0 代表 没有 购买 ,1 则 代表 已 购买 ) 。 


dataSet 
userid | v a b < d e H H r 
1 1 0 0 0 0 0 0 0 
2 1 0 0 0 1 0 0 0 0 
3 1 0 1 0 0 0 0 0 0 
4 1 0 0 0 0 0 0 i 0 
userid: 用 户 id，v 以 及 a~g: 用 户 特征 ，r， 购买 结果 
8-43 ” 样 例 源 数据 
2. 程序 代码 解析 


CD 构建 数据 总 集 D, 每 行 都 包括 用 户 身 份 证 号 ,特征 集合 { 一 fa,b,c,d'e,f,g,r}。f 中 
的 特征 请 参考 上 一 小 节 。 对 原始 数据 集 做 切 分 ,转换 为 RDD 格式 的 数据 。 具体 实现 如 
图 8-44 所 示 。 


val item = sc. textFile(“sourceDate/experiment3/dateSet.csy”).map { line => 

val itens = line. trim. split(^, ”) 

Array("a="+itens(2), “b="+itens(3), "co^ itens(4), "do^ itens(5), "e=" titens(6), “f°+itens(1), "go titems(8), "r=" +itens(9)) 
) 


图 8-44 构建 数据 总 集 D 


(2) 挖掘 频繁 项 集 。 首 先 指 定 最 小 支持 度 为 0. 0001 ,数据 分 片 数目 为 10, 即 数据 会 被 
并 行 到 十 个 节点 中 执行 。 随 后 按照 项 集 的 频繁 程度 排序 ,得 到 频繁 项 集 。 这 里 的 支持 度 之 
所 以 设置 得 这 么 小 ,是 因为 我 们 想 要 分 析 每 个 特征 对 购买 结果 的 影响 ,但 是 像 包含 (a 一 1， 
r 一 1) 的 数据 项 其 实在 源 数据 集中 却 只 有 24 项 ,因此 如 果 最 小 支持 度 设置 得 比较 大 ,将 不 会 
输出 相关 频繁 项 集 。 具 体 过 程 如 图 8-45 所 示 。 
val fpg = new PPGrorth() 
- setMinSupport (0. 0001) 


setlfumPartitions (10) 
val model = fpg run(itea) 


model. freqItensets. sortBy(1 => 1. freq, false). collect(). foreach { itemset => 
if iG =1) { 
println(itenset. items.mkString(“[", 7,7, 717) + 7, 
} 
} 


7 + itenset freq. toouble) 


图 8-45 挖掘 频繁 项 集 


G) 挖掘 关联 规则 。 首 先 指定 了 最 小 置信 度 为 0. 01, 随 后 依据 上 一 步 中 产生 的 频繁 项 
集 生 成 关联 规则 ,这 里 只 输出 关联 规则 的 后 继 为 r— 1 的 结果 ,因为 我 们 比较 关心 的 是 购买 
结果 为 1( 已 购买 ) 的 信息 ,并 输出 其 置信 度 以 及 提升 度 。 具 体 过 程 如 图 8-46 ros 


第 8 章 保险 大 数据 分 析 案 例 


373 


val fregItemsets = model. fregItensets filter(l =) l freq > 1) 
wal srule = mew AssociationRules() 
mfi dence (0. 01) 


results. sortBy(1 => l. confidence, false). collect(). foreach { rule => 
if (rule. antecedent. nkString( J”). contains ("=1") 
bt rule. consequent. mkString(~[ 1°). contains(^r-17)) { 


println( 
rule. antecedent. mkString(“[", 7,7, *17) 
+“” " + rule. consequent. mkString(“[", 7,7, 717) 
+", " + xule. confidence +” lift = ”+ rule confidence / 1531 * 33874 


图 8-46 挖掘 关联 规则 


3. 程序 运行 及 结果 分 析 
像 前 面 两 个 实验 一 样 ,将 代码 写 好 之 后 , 便 开始 运行 程序 ,等 待 程序 运行 完毕 后 ,从 输出 
结果 中 ,可 以 找到 所 有 先导 为 单 特征 的 关联 规则 ,如 图 8-47 所 示 。 


[a=1] => [r=1], 0.020168067226890758 lift = 0.4462267206033296 
[b=1] => [r-1], 0.03348837209302326 lift = 0.7409439035134356 
[c=1] => [r-1], 0.11501925545571245 lift = 2.5448479812585263 
[d=1] => [r-1], 0.02114260008996851 lift = 0.4677886580323927 
[e=1] => [r-1], 0.0673469387755102 lift = 1.4900785134432613 

[£=1] => [r-1], 0.09921671018276762 lift = 2.1952102160229066 
[g=1] => [r-1], 0.030072003388394747 lift = 0.6653553512596235 


图 8-47 ”部 分 运行 结果 


其 中 第 一 个 数值 为 关联 规则 的 置信 度 ,第 二 个 数值 为 lift 系数 。 以 横向 条 状 图 显示 各 
特征 的 出 单 率 及 lift 系数 ,如 图 8-48 及 图 8-49 所 示 。 


单 特征 对 出 单 率 的 影响 
特征 C 
特征 F 
特征 E 
特征 B 
特征 G 
"ED 
特征 A 


出 单 率 /% 
图 8-48 单 特征 对 出 单 率 的 影响 


源 数据 集 共 有 33 874 个 客户 ,其 中 购买 客户 有 1531 个 , 占 4. 5%, 未 购买 客户 有 
32 343, 占 95.5%。 在 八 个 特征 中 ,vip 类 型 为 离散 特征 ,共有 10 个 等 级 ,分 别 为 1 至 10, 其 
余 七 个 特征 为 布尔 类 型 , 均 为 “0 或 者 "1”。 

对 于 特征 A 至 G, 结 合 图 8-48 及 图 8-49 我 们 可 以 直观 地 看 到 ,不 同 特征 对 购买 行为 的 
影响 程度 不 同 。 比 如 ,对 于 特征 C( 即 “是 否 vip”) 其 置信 度 达到 了 11. 5%, 即 属于 vip 类 型 
的 客户 最 终 有 11.5% 的 客户 购买 了 该 保险 , 比 总 体 的 出 单 率 4.5% 大 。 另 外 ,特征 C H lift 
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单 特征 的 li 系数 大 小 


特征 G 
等 征 F 
特征 E 
寺 征 D 
竺 征 C 
FEB 
特征 A 


Fe coor a el SP db i E ac ael ala 
0 02 04 06 08 10 12 14 L6 L8 20 22 24 26 
Vif d 


图 8-49 单 特征 的 lift 系数 大 小 


系数 为 2. 54, 对 购买 行为 的 影响 呈现 较 大 的 正 相 关 性 ,证 明 公 司 对 拥有 vip 这 一 特征 的 用 户 
推销 产品 是 正确 的 策略 。 然 而 对 于 特征 ACBII*2013/2014 连续 购买 2015 年 中 断 客户 ”) ,其 
置信 度 为 2.0%, 即 属于 该 类 型 的 客户 最 终 只 有 2.0% 的 客户 购买 了 该 保险 。 另 外 ,特征 A 
的 lift 系数 为 0. 45 ,表示 该 特征 对 用 户 的 购买 行为 呈 负 相关 性 , 即 拥 有 该 特征 的 用 户 会 抑制 
“购买 ”这 一 行为 ,因此 在 后 续 的 推销 中 ,需要 减弱 甚至 忽略 这 个 特征 的 影响 ,重新 指定 新 的 
推销 策略 。 

对 于 特征 V, 即 客户 的 Vip 类 型 ,为 离散 特征 ,共有 10 个 等 级 。 我 们 修改 一 下 源 代码 ， 
如 图 8-50 及 图 8-51 所 示 , 其 他 代码 内 容 保 持 不 变 。 


eDate/exporiment3/dataSet. esv”). nep ( line => 
«C 
*items3), "co" ritens(4), “d="sitens(5), “om"sitens(6), "fe^ itens(T), "ge^ itens(8), “r=*+itens(9)) 


l 


mont3/dataSet. csv”).map ( line => 


val iten = se. textFile("sourcoData/exp. 
val itens = line. tria. split(”, ") 
Aeray("v=" + itens(1), "r=" + items (9)) 


图 8-50 ”代码 修改 内 容 


results, sortBy(1 -> l confidence, false).co 


foreach ( rule => 


if (rule antecedent. skStri; 
&k ruli 
printl 


sequent. zkString("[ 


dent. akString(^[*, *, 


+ rule. consequent. akstri: "pr Y 
" + rule. confidence + ^ lift ~- " + rule confidence / 1531 = 33874 


- > rule consequent zt 
+7, 7 + rule confidence + ” lift — ” + rule confidence / 1531 # 33874 


图 8-51 代码 修改 内 容 
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重新 运行 程序 ,可 以 看 到 如 图 8-52 所 示 的 输出 结 


=> [ret], 0.2631578947368421 lift = 5. 822475849977655 
=> [r=1], 0.24390243902439024 lift = 5. 396441031686607 
, 0.18495297805642633 lift = 4 09216014283696 
,0. 1736745886654479 lift = 3.842621173385619 
, 0.1148936170212766 lift = 2.5420681796072655 
, 0.11431513903192585 lift = 2.52926911794086 
, 0. 10304625799172622 lift = 2. 2799405246320927 
, 0. 07972544878563886 lift = 1. 763958100695448 
, 0. 054006309148264986 lift = 1.1949116368963606 
, 0.014868897889575784 lift = 0. 3289804357357871 


图 8-52 运行 结果 
下 面 图 表 直 观 地 表现 出 了 VIP 各 等 级 出 单 的 占 比 和 VIP 各 等 级 对 产 口 购买 的 影响 程 
度 ,如 图 8-53 和 图 8-54 所 示 。 


VIP 各 等 级 出 单 的 占 比 
VIP6: 3.5% VIP9: 0.7% 


VIP7: 


VIP10: 4.6% 
VIP8: 6.2%- 4% VIP2: 27.9% 


VIPS: 7.3%-~ 


VIP4: 9.9% ~ 


VIP1: 18.2% 
VIP3: 17.9% 


图 8-53 VIP 各 等 级 出 单 的 占 比 


VIP 各 等 级 对 产品 购买 的 影响 程度 


0 2 4 6 8 10 12 M 16 18 20 22 24 26 28 
置信 度 
图 8-54 VIP 各 等 级 对 产品 购买 的 影响 程度 


由 图 中 可 以 看 出 , VIP 等 级 低 的 客户 占 大 多 数 ,其 中 人 数 占 比 最 多 的 为 VIP2, 占 
27.9%。 通 过 算法 计算 ,每 个 等 级 对 “购买 ”行为 的 置信 和 度 如 图 8-54 所 示 。 从 图 中 我 们 发 
现 ,VIP 等 级 越 高 的 客户 ,其 购买 的 欲望 更 高 。 举 个 例子 ,对 于 VIP 这 个 等 级 的 客户 ,其 占 
比 达到 了 27.9% ,但 是 其 购买 的 置信 和 度 只 有 5. 4%, 即 他 们 的 基数 虽然 大 ,但 是 购买 的 人 却 
很 少 ; 反 过 来 对 于 VIP9 这 个 等 级 的 客户 ,其 占 比 仅 仅 为 0.7% ,但 是 其 购买 的 置信 和 度 达 到 
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了 26.3%, 为 所 有 客户 中 最 大 , 即 他 们 的 基数 虽然 小 ,但 是 购买 的 意愿 却 非 常 大 。 根 据 这 个 
结果 ,该 大 型 保险 公司 在 下 一 季度 中 可 以 调整 其 销售 策略 ,优先 对 VIP 为 9 这 个 等 级 的 客 
户 推销 。 

综 上 所 述 ,根据 程序 运行 的 结果 ,该 大 型 保险 公司 用 以 精准 营销 的 七 个 特征 并 不 全 是 有 
效 的 策略 ,其 中 通过 “VIP 客户 (贵宾 卡 及 以 上 客户 )”“ 普 通 客 户 持 3 份 合 同 /保费 2 万 元 以 
上 / 近 两 年 购买 过 “普通 客户 积分 30000 以 上 且 近 两 年 购买 过 ”这 三 个 特征 制定 的 销售 策略 
是 正确 的 ,相反 ,通过 “2013/2014 连续 购买 2015 年 中 断 客户 ”“*2014/2015 连续 购买 客户 ” 
“第 二 份 保单 区 止 收 客户 ?这 四 个 特征 制定 的 销售 策略 是 不 合理 的 。 根 据 分析 结 果 , 该 大 型 
保险 公司 对 制定 销售 策略 的 特征 进行 了 调整 ,并 已 经 将 新 的 特征 运用 到 了 2016 年 第 一 季度 
产品 推销 的 策略 制定 中 。 


8.4.4 结果 可 视 化 


本 节 将 介绍 上 述 三 个 实验 的 实验 结果 的 可 视 化 ,由 于 本 案例 的 内 容 主要 体现 在 上 述 三 
个 实验 的 数据 挖掘 过 程 ,因而 此 处 的 相关 结果 可 视 化 将 不 会 深入 每 个 代码 细节 进行 交代 ,将 
会 简单 介绍 所 用 到 的 环境 ,以 及 一 些 核心 的 代码 展示 , 想 深 入 到 源 代 码 的 读者 ,可 以 到 案例 
附属 代码 自行 查阅 。 

1. 环境 准备 

可 视 化 项 目 使 用 到 的 工具 主要 如 下 : 

(1) Myeclipse: 项 目 开发 使 用 的 IDE, 可 使 用 同类 型 的 其 他 IDE, 比 如 Eclipse。 

(2) Tomcat: 常用 的 轻 量 级 WEB 应 用 服务 器 。 

(3) Java JDK 1.7: Java 运行 环境 ,当前 Java JDK 最 新 版 本 为 1.8, 但 由 于 我 们 提供 的 
可 视 化 项 目 使 用 的 Spring 框架 版 本 为 3. 2 ,与 Java 1. 8 存在 兼容 性 问题 ,请 务必 注意 , 若 读 
者 想 要 基于 Java 1. 8 运行 本 项 目 , 请 改 用 Spring4 框架 。 

(4) Mysql: 数据 库 。 

(5) Navicat: 数据 库 管 理工 具 , 大 大 提高 开发 Bil e inne tee neige seer rea tn 


AlteShifteN > 


效率 。 Open File 
以 上 每 个 工具 的 安装 以 及 配置 使 用 就 不 一 一 详 |7 tme temm s 
细 介 绍 与 说 明 ,网络 上 也 有 许多 相关 的 资源 参考 。 Eee ent 
环境 配置 完毕 后 , 便 可 以 进行 项 目 导 和 过程 ， 所 emm ud 
单 击 左 上 角 菜 单 “File”, 单 击 “Import” 导 入 项 目 , 选 (o e^ costes 
fÉ"Existing Projects into Workspace". 如 图 8-55 Move. 
以 及 图 8-56 所 示 。 pens i5 
导入 项 目 后 ,找到 项 目 路 径 下 的 数据 库 配置 文 | Cmn Delimiters To 
件 jdbc. properties, 如 图 8-57 所 示 。 K ae = 
修改 jdbc. properties 文件 的 内 容 为 相应 的 数 assa 
据 库 配置 ,如 图 8-58 所 示 。 | 
随后 , 便 可 以 运行 项 目 ,可 以 看 到 主页 如 图 8-59 sak EEN 
所 示 。 


图 8-55 导入 项 目 
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v B BigdataBl 
"T 

> B comconnlkyLcommon 
> [f com.conn.lky.controller 
> Æ comconnJkyldao 

> SB com.connlkyl.daoimpl 
> Œ com.conn.liy. model 

> ff com.conn.lky.service 


Y & General > Æ comconnilkyl.serviceimpl 
D Archive File > ff comconnlkyltest 
© Existing Projects into Workspace v 
£3 File System 
[T] Preferences 


£3 Projects from Folder or Archive 


图 8-56 FARA 图 8-57 jdbc. properties 文件 
#aysal 
jdbc.mysql.urle jdbc:mysql://127.0.0.1:3306/yc?useUnicode-true&characterEncoding-utf& 
jdbc.mysql.usernamesroot FERD 
jdbc.mysql.password=root 用 户 推荐 展示 
jdbc.mysql.dirverClass=com.mysql.jdbc.Driver 回归 检验 展示 
图 8-58 数据 库 配 置 样 例 图 8-59 主页 


2. 家 谱 展 示 

家 谱 展示 涉及 的 后 台 代码 主要 由 getFamily() ,findFidO \findFamily() 以 及 findPerson() 这 
四 个 函数 组 成 。 

其 中 ,findFid() 函 数 用 于 查询 我 们 所 输入 的 用 户 id 所 在 的 家 庭 编号 。findFamily() 函 
数 根据 家 庭 id 从 数据 库 中 找 出 所 有 该 家 庭 id 的 数据 项 ,主要 用 于 构造 边 集 。findPerson() 
函数 则 根据 家 庭 id 从 数据 库 中 找 出 所 有 属于 该 家 庭 id 的 成 员 id, 主 要 用 于 构造 点 集 。 最 
后 ,通过 getFamily() 函 数 返回 数据 到 对 应 前 端 页 面 提 供 使 用 。 这 四 个 函数 详细 见 图 8-60 
和 图 8-61。 


RequestHapping("/findFamily") 
public String getFamily(String uid, HttpServletRequest request){ 
J/esmxuidanexnefid 
/ /sid Rss 
try { 
Integer.parseInt(uid); 
) catch (NumberFormattxception e) { 
JoptionPane.showfessogeDialog(null, "idezea^, “aT”, 
JOptionPane.ERROR MESSAGE); 
return "/jsp/FindUserFamily"; 


) 
int fid = this.userService.findFid(Integer.parseInt(uid)); 
if(fid == -1){ 
JOptionPane. showlessogeDialog(null, "xxi, wxeeidexswA", "EST", 
JOptionPane.ERROR MESSAGE); 
return "/jsp/FindUserFamily"; 


/ [kx X aate tm 
//asastideaere, 
List<Integer> per: 
List<Edges> family 


= this.userService.findPerson(fid); 
his.userService.findFamily(fid) 5 


return "/jsp/getGraphChat"; 


图 8-60 getFamilyO 


a> 云 计 算 与 大 数据 技术 理论 及 应 用 


public int findFid(int uid) ( 
String sql = "select distinct id from Edges where bid-? or tide 
Query query = sessionFactory.getCurrentSession() .createQuery(sq 
query.setInteger(@, uid); 
query.setInteger(1, uid); 
if(query.list().size()c1)( 
return -1; 
jelsef 
return (Integer) query.list().get(0); 
} 


} 


SuppressWarnings("unchecked") 
public List<Edges> findFamily(int id) { 


String hql = "select e.tid,e.bid,r.chinese from Edges as e, Relate as r where id = ? and e.relation-r.relate"; 


Query query = sessionFactory. getCurrentSession().createQuery(hql); 
query.setInteger(@, id); 
return query.list(); 


public List<Integer> findPerson(int id) { 
String sqli = "select distinct tid from Edges where i 
String sql2 = “select distinct bid from Edges where i 
Query queryl = sessionFactory.getCurrentSession().createQuery(sqli); 
Query query2 = sessionFactory. getCurrentSession().createQuery(sql2); 
queryl.setInteger(®, id); 
query2.setInteger(0, id); 
ListcInteger» temp = queryl.list(); 
tenp.addAll(query2.list()); 
return temp; 


图 8-61 findFidO ,findFamilyO X findPerson() 


还 记得 8. 4. 1 节 实 验 一 我 们 最 后 生成 的 家 谱 挖掘 的 结果 吧 , 对 该 原始 数据 进行 格式 化 
处 理 , 并 编写 对 应 sql 文件 (可 在 附属 代码 中 找到 ) ,然后 通过 Navicat 中 导入 到 Mysql 数据 


库 中 ,效果 最 后 如 图 8-62 所 示 。 


id tid bid relation tsex bsex 
1 1 93806 R F F 
2 2540 95870 P F M 
2 2 2540 S M F 
3 3 93807 C F M 
4 13565 105710C F F 
4 4 13565 S M F 
4 13565 109186 C F M 
4 — 13565 4s F M 
5 93808 C F F 
6 6 93809 P M F 
7 7 94048 C F M 
7 7 93810 S F M 
8 8 98562 C M M 
8 8 93811 S M F 


图 8-62 edges # 


表 结 构 中 ,id 表示 家 庭 号 ,tid 表示 投保 人 id. bid 表示 受益 人 id, relation 表示 tid 对 bid 


的 关系 ,tsex 表示 投保 人 性 别 ,bsex 表示 受益 人 性别。 


单 击 主页 上 的 “家 谱 展示 ”, 在 输入 框 中 输入 用 户 的 id,id 可 以 在 数据 库 中 查询 ,如 图 8-63 


所 示 。 


6712 


提交 | 


提交 后 显示 以 该 用 户 为 中 心 的 家 谱 信 息 。 将 鼠标 放置 在 边 
上 可 显示 其 相互 之 间 的 关系 ,如 图 8-64 所 示 。 
3. 用 户 推荐 展示 


8-63 查询 用 户 家 谱 


用 户 推荐 展示 涉及 的 后 台 代 码 主要 由 getUserChar() 以 及 getUserCount() 这 两 个 函数 


组 成 。 


其 中 ,getUserCount() 函数 用 于 统计 某 一 购买 可 能 性 范围 的 用 户 数 。 而 getUserChar() PR 
个 购买 可 能 性 范围 的 用 户 数 ,并 在 最 后 返回 数据 到 对 应 前 端 页 面 提供 使 用 。 


数 则 负责 记录 5 
这 两 个 函数 详 见 


类 似 家 谱 展示 ,对 实验 二 原始 数据 进行 处 理 , 去 除 括号 ,并 编写 好 相应 的 sql 文件 后 , 导 
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图 8-64 家谱 图 


图 8-65 和 图 8-66。 


RequestPapping("/getUserChar") 

public String getUserChar(HttpServletRequest request){ 
int user8@ = this.userService.getUserCount("1"); 
int user60 = this.userService.getUserCount(*0.8"); 
int user4 = this.userService.getUserCount ("9.6"); 
int user20 = this.userService.getUserCount("0.4"); 
int user@ = this.userService.getUserCount("@.2"); 
int notBuy = this.userService.getUserCount(“@"); 
request. setAttribute( “user! userB8); 


request. setAttribute user6e); 
request.setAttribute user48); 
request. setAttribute user20); 
request.setAttribute( » user); 


request. setAttribute(": 


» userBesuser&Otuserdsuser20*usero) ; 


request.setAttribute("all", user8@tuser60+user4@+user20+user@+not8uy) 5 


return "/jsp/getüserChar"; 


图 8-65 getUserChar() 


入 Mysql 数据 库 ,结果 如 图 8-67 所 示 。 


public int getUserCount(String range) { 
String sql = "from UserChar where per<=? and per»?"; 


Query query 
double temp 


essionFactory .getCurrentSession().createQuery(sq1); 
 Double.parseDoubLe(range) ; 


query.setDouble(@, temp); 
query.setDouble(1, (float) (temp-0.2)); 
return query.list().size(); 


8-66 getUserCount() 


id per 
254463 
310071 
459525 
496155 
110316 
131733 
45339 

104805 
164139 
247500 


8-67 userchar 表 
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表 结 构 中 ,id 表示 用 户 id,per 表示 购买 可 能 性 。 
单 击 主页 上 的 “用 户 推荐 展示 ”, 即 可 看 到 如 图 8-68 所 示 的 统计 结果 。 


9» 80%-100% 用 户 购买 概率 aA AGC YCH 
S> 60%-80% 
> 409-6056. 
> 20%-40% 
e» 0205 0-20% - 
20%-40% — 


4096-6096 一 


M 80%-100% 


图 8-68 用 户 购买 概率 


4. 回归 检验 展示 
由 于 该 处 数据 量 较 小 ,直接 复制 console 中 的 数据 ,并 填写 到 项 目 中 的 getUserChar. jsp 
中 的 相应 位 置 即 可 ,如 图 8-69 和 图 8-70 所 示 。 
m :[ 


type : 'category', 
data : ['vipl','vip2', 'vip3', 'vip4', 'vipS', 'vip6', 'vip7', 'vip8', 'vip10", "vip9"] 


) 
b 
series : [ 
t 
name:'vip', 
type: "bar", 
barWidth:'15', 
data:[1.5, 5.4, 8.0, 10.3, 11.4, 11.5, 17.4, 18.5, 24.4, 26.3] 
} 


图 8-69 getUserChar. jsp 


yAxis : [ 


type : 'category', 
data : ['e£a','egb','sec','ezd','ege',ezf', REg] 


series : [ 
t 
name: 'feature', 
type:'bar', 
barWidth: "15", 
data: [2.0,3.3,11.5,2.1,6.7,9.9,3.0] 


8-70 getUserChar. jsp 
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然后 单 击 主页 上 的 “回归 检验 展示 ”, 即 可 看 到 如 图 8-71 和 图 8-72 所 示 的 结果 。 
vip 属 性 回归 检验 @ sce a Bw SA 


图 8-71 Vip 属性 回归 检验 


各 特征 回归 检验 四 ae AAT Bw kh OB 


0 25 50 75 10 125 


图 8-72 各 特征 回归 检验 


8.5 不 足 与 扩展 


这 里 提 一 些 本 案例 存在 的 不 足 之 处 以 及 一 些 可 以 扩展 的 地 方 ,有 兴趣 的 读者 可 以 尝试 
在 实践 的 过 程 中 加 入 一 些 自己 的 想法 。 

(1) 请 尝试 在 Linux 环境 下 进行 整个 案例 的 实现 ,以 集群 环境 运行 Spark, 并 配合 
HDFS 等 大 数据 组 件 进行 实验 ; 

(2) 尝试 其 他 处 理 不 平衡 数据 的 方法 ,如 欠 抽 样 等 ,并 与 此 处 的 基于 分 片 技术 的 随机 森 
林 算 法 比较 预测 的 结果 ; 

G) 出 于 时 间 以 及 简单 操作 考虑 ,实验 二 只 试验 了 一 遍 分 片 数目 从 1 循环 至 20 的 随机 
森林 模型 的 评估 ,在 该 次 运行 结果 中 ,分 片 为 6 的 模型 F-value 值 最 高 ,并 不 具备 一 般 性 ,请 
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读者 自行 修改 程序 ,统计 多 次 程序 的 运行 结果 , 找 出 在 此 业务 环境 下 ,模型 性 能 达到 最 佳 的 
分 片 数 。 


习题 


1. 保险 大 数据 分 析 主 要 有 哪些 应 用 需求 ? 
2. 请 根据 教材 内 容重 现 3 个 案例 的 实现 程序 。 


第 Ox 


基于 Spark 案 类 算法 的 网 络 流量 异常 检测 


9.1 基本 需求 与 数据 说 明 


9.1.1 基本 需求 


随 着 网 络 技术 和 网 络 规 模 的 不 断 发 展 ,网 络 入 侵 的 风险 性 也 越 来 越 大 ,网 络 安全 已 经 成 
为 一 个 全 球 性 的 重要 问题 。 在 网 络 安全 问题 日 益 凸 显 的 今天 ,如 何 迅速 有 效 地 发 现 各 种 新 
的 网 络 流量 异常 ,对 保障 系统 和 网 络 资源 安全 起 着 至 关 重 要 的 作用 。 

目前 常用 的 安全 技术 如 信息 加 密 、 防 火 墙 等 可 以 作为 保护 网 络 的 第 一 道 防线 ,但 存在 不 
能 阻止 内 部 攻击 .不 能 提供 实时 检测 等 缺陷 ,因此 入 侵 检 测 技 术 作为 网 络 安全 的 第 二 道 防线 
应 运 而 生 。 入 侵 检 测 技 术 可 分 为 异常 检测 和 误 用 检测 ,其 中 异常 检测 可 用 于 识别 未 知 的 网 
络 入侵 行为 ,然而 现 有 的 网 络 流量 异常 检测 系统 大 都 采用 专家 系统 或 基于 统计 的 方法 ,这 需 
要 较 多 的 经 验 , 且 无 法 有 效 地 检测 出 未 知 的 异常 类 型 ,难以 对 网 络 中 出 现 的 新 攻击 类 型 进行 
检测 。 而 基于 数据 挖掘 方法 可 以 从 大 量 的 数据 中 提取 出 有 效 的 信息 ,通过 学 习 预 测 模型 发 
现 事先 未 知 的 知识 和 规律 ,而 不 依赖 经 验 

传统 的 基于 数据 挖掘 的 异常 检测 算法 多 基于 监督 学 习 方法 ,该 方法 保证 异常 检测 模型 
的 精度 在 于 使 模型 与 实际 网 络 数 据 分 布 相 吻 合 , 使 之 能 够 正确 反映 网 络 数 据 的 实际 情况 , 因 
此 需要 足够 的 训练 数据 ,以 生成 具有 良好 的 泛 化 性 能 的 检测 模型 。 然 而 ,在 网 络 环境 中 要 获 
取 到 足够 的 标记 数据 作为 训练 集 是 比较 困难 的 , 且 在 训练 数据 上 代价 高 晶 。 因 而 非 监督 学 
习 方 法 被 逐渐 应 用 到 异常 检测 中 , 非 监督 学 习 方 法 根据 数据 的 相似 性 进行 分 组 ,能 克服 监督 
学 习 方法 中 标记 数据 不 足 的 局 限 性 。 

建 模 和 分 析 经 常 需 要 对 一 个 数据 集 进行 多 次 的 遍历 ,迭代 计算 是 机 器 学 习 算 法 和 统计 
过 程 本 身 的 特性 ,Spark 扩展 了 内 存 计算 能 力 ,非常 适合 用 于 涉及 大 量 迭 代 的 数据 挖掘 算法 
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实现 。 可 以 说 ,Spark 非常 契合 数据 科学 领域 的 研究 和 应 用 ,作为 一 个 迭代 计算 引擎 提供 了 
一 个 革新 海量 数据 计算 和 数据 挖掘 的 解决 方案 。 一 般 来 说 ,大 数据 的 数据 量 会 达到 GB, TB 
甚至 PB 级 别 ,所 以 传统 的 单机 处 理 方法 的 效率 显然 是 十 分 低 的 。 本 文 基于 Spark 将 聚 类 
算法 应 用 到 网 络 流量 异常 检测 中 ,实现 了 模型 的 并 行 化 ,不 仅 可 以 提高 算法 的 执行 效率 ,而 
且 能 通过 多 节点 的 网 络 流量 采集 进一步 解决 标记 数据 不 足 或 海量 数据 处 理 的 瓶 天。 同时 ， 
Spark 还 紧密 地 集成 了 Hadoop 生态 系统 的 许多 工具 , 它 的 流 式 处 理 组 件 Spark Streaming 
能 连续 从 Flume 和 Kafka 之 类 的 系统 读 取 实 时 小 批量 数据 ,这 为 我 们 进一步 扩展 实现 准 实 
时 的 流量 异常 检测 系统 提供 了 强 有 力 的 支持 。 

本 案例 将 根据 以 上 所 述 的 非 监督 学 习 特性 和 算法 并 行 化 的 需求 ,基于 并 行 聚 类 算法 设 
计 实 现 一 个 网 络 异常 检测 系统 。 由 于 KDD99 数据 集 在 该 项 研究 中 应 用 最 为 广泛 和 权威 ， 
案例 的 实验 部 分 将 利用 该 数据 集 有 效 地 评估 系统 的 质量 和 算法 效率 。 后 续 章 节 将 对 实验 中 
使 用 的 KDD99 数据 集 进行 具体 说 明 , 接 着 分 别 介绍 了 数据 预 处 理 算法 、 并 行 化 实现 K- 
means++ 聚 类 算法 和 离线 聚 类 质量 评估 模型 ,最 后 设计 检测 算法 并 基于 Spark 实现 一 个 网 
络 流量 异常 检测 系统 ,整体 上 构建 出 一 个 较为 完整 的 能 够 区 分 计算 机 网 络 中 合法 和 非法 连 
接 的 预测 模型 。 通 过 本 案例 系统 地 阐释 Spark 在 数据 挖掘 上 的 处 理 技 术 和 应 用 ,并 为 进 一 
步 的 大 数据 挖掘 工作 和 实时 处 理 技术 研究 做 准备 。 


9.1.2 数据 说 明 


1998 年 MIT Lincoln 实验 室 在 DARPA 入 侵 检测 评估 程序 中 建立 了 模拟 美国 空军 局 
域 网 的 一 个 局 域 网 络 环境 (LAN) ,收集 了 9 周 时 间 的 网 络 链接 和 系统 审计 数据 ,仿真 各 种 
用 户 类 型 .各 种 不 同 的 网 络 流量 和 攻击 手段 ,使 它 就 像 一 个 真实 的 网 络 环 境 。 其 中 训练 数据 
集 由 前 七 周 的 约 4GB 的 二 进 制 tcpdump 网 络 流量 压缩 数据 组 成 ,包含 了 大 约 5 000 000 条 
网 络 连 接 记录 ,后 两 周 的 2 000 000 条 连接 记录 则 作为 测试 数据 集 。 然 而 该 原始 数据 集 并 不 
适合 直接 用 于 模型 的 学 习 , 根 据 Stool fo!) 等 人 提出 的 特征 提取 模型 对 以 上 的 数据 集 进行 处 
理 , 并 利用 领域 知识 抽取 出 高 层 TCP/IP 特征 ,形成 了 一 个 新 的 数据 集 。 该 数据 集 被 用 于 
1999 年 举行 的 KDDCUP 竞赛 中 , 即 著名 的 KDD99 Be EE ,该 数据 集 在 近年 来 的 网 络 
流量 异常 检测 研究 中 应 用 最 为 广泛 。 

数据 集 已 经 对 原始 网 络 流量 包 进行 了 加 工 ,将 每 个 流量 转换 成 每 个 网 络 连接 的 统计 信 
息 ,每 个 网 络 连接 被 打上 正常 (normal) 或 特定 异常 类 型 (attack type) 的 分 类 标签 。 整 个 数 
据 集 大 小 约 为 708MB, 包 含 约 4 900 000 条 连接 数据 。 数 据 集 为 CVS 格式 ,其 中 每 个 连接 占 
一 行 ,包含 41 个 特征 和 一 个 分 类 标签 ,特征 包括 网 络 协议 .连接 起 始 时 间 .连接 结束 时 间 、 服 务 
类 型 源 全 地 址 .目的 他 地 址 ,连接 终止 状态 ,发 送 的 字 节 数 、 登 录 次 数 、TCP 错误 数 等 信息 。 

数据 集 的 分 类 标签 除了 正常 类 型 (normal) 之 外 包含 22 种 攻击 类 型 (attack type) ,可 将 
其 分 为 如 下 4 类 : 

* Dos ,拒绝 服务 攻击 ,如 : syn.flood; 

* R2L, 对 远程 主机 的 未 授权 的 访问 ,如 : guessing password; 

© U2R, 对 本 地 超级 用 户 权 限 的 未 授权 的 访问 ,如 : various “buffer overflow" attacks; 

。 Probe, 扫 描 与 探测 行为 ,如 : port scanning. 

按照 模型 中 I 中 定义 的 属性 将 数据 特征 分 成 三 类 ,分 别 是 : 基本 特征 、 内 容 特 征 和 流量 
特征 。 其 中 有 9 个 特征 属性 是 离散 型 (discrete) 变 量 , 其 余 为 连续 型 (continuous) 的 数值 变 
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量 。 表 9-1 一 表 9-3 按照 这 三 个 类 将 这 31 个 特征 的 名 称 、 描 述 和 数据 类 型 列举 如 下 。 


表 9-1 单个 TCP 连接 的 基本 特征 


feature name description type 
duration length (number of seconds) of the connection continuous 
protocol type type of the protocol. e.g. tcp, udp, etc. discrete 
service network service on the destination, e. g. , http, telnet, etc. discrete 
src bytes number of data bytes from source to destination continuous 
dst bytes number of data bytes from destination to source continuous 
flag normal or error status of the connection discrete 
land 1 if connection is from/to the same host/port; 0 otherwise discrete 
wrong Íragment number of "wrong" fragments continuous 
urgent number of urgent packets continuous 
表 9-2 领域 知识 所 建议 的 连接 内 的 内 容 特征 
feature name description type 
hot number of "hot" indicators continuous 
num_failed_logins number of failed login attempts continuous 
logged_in 1 if successfully logged in; 0 otherwise discrete 
num_compromised number of "compromised" conditions continuous 
root_shell 1 if root shell is obtained; 0 otherwise discrete 
su_attempted 1 if "su root" command attempted; 0 otherwise discrete 
num_root number of "root" accesses continuous 
num file creations number of file creation operations continuous 
num shells number of shell prompts continuous 
num access files number of operations on access control files continuous 
num, outbound cmds | number of outbound commands in an ftp session continuous 
is hot login 1 if the login belongs to the "hot" list; 0 otherwise discrete 
is guest login 1 if the login is a &quot;guest "login"; 0 otherwise discrete 
A93 一 个 2 秒 内 时 间 窗 口 计算 所 得 流量 特征 
feature name description type 
number of connections to the same host as the current 
count m continuous 
connection in the past two seconds 
serror rate % of connections that have "SYN" errors continuous 
rerror_rate % of connections that have "REJ" errors continuous 
same_srv_rate % of connections to the same service continuous 
diff_srv_rate % of connections to different services continuous 
number of connections to the same service as the current , 
srv count n continuous 
connection in the past two seconds 
Srv serror rate % of connections that have "SYN" errors continuous 
srv rerror rate % of connections that have "REJ" errors continuous 
srv. diff host rate % of connections to different hosts continuous 
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表 9-4 给 出 了 数据 集中 一 条 记录 的 实例 ,每 条 记录 以 CSV 格式 写 出 ,包含 如 上 所 述 的 
31 个 特征 值 和 一 个 分 类 标签 。 
moa 数据 集 记录 示例 


0,tcp,http,SF,215,45076,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0. 00,0. 00,0. 00,0. 00,1. 00, 
0. 00,0. 00,0,0,0. 00,0. 00,0. 00,0. 00,0. 00.0. 00,0. 00,0. 00, normal. 


以 表 9-4 中 的 这 条 连接 记录 为 例 , 依 次 理解 各 字段 含义 ,由 于 连接 持续 时 间 为 0 可 知 其 
为 非 持续 的 短 连接 ,协议 类 型 为 TCP, 目 标 主机 的 网 络 服务 类 型 为 HTTP, 连 接 状态 正常 ， 
从 源 主 机 发 送 到 目标 主机 的 数据 字 节 数 为 215bit, 从 目标 主机 接收 的 数据 字 节 数 为 
45 076bit ,发 送 和 接收 端的 端口 号 不 一 致 ,无 错误 分 段 和 加 急 包 ,最 终 该 连接 被 标记 为 
normal 类 型 。 

特别 注意 的 是 ,训练 数据 集 和 测试 数据 集 不 满足 同 分 布 ,在 测试 数据 集中 存在 的 特定 异 
常 类 型 有 可 能 未 曾 在 训练 集 出 现 过 。 这 使 得 数据 集 更 加 符合 现实 的 网 络 环境 ,但 由 于 大 多 
数 新 奇 的 攻击 是 已 知 攻击 的 变种 ,一 个 强大 的 异常 检测 系统 应 该 足以 捕获 这 些 新 的 变种 。 
本 文 将 基于 KDD99 数据 集 , 利 用 Spark 构建 一 个 网 络 流量 异常 检测 系统 ,学 习 出 能 够 区 分 
计算 机 网 络 中 合法 和 非法 连接 的 预测 模型 ( 即 分 类 器 ) 。 


9.2 设计 方案 


9.2.1 聚 类 问题 描述 


聚 类 是 非 监督 学 习 算 法 的 基本 形式 之 一 , 它 试 图 找到 数据 中 的 自然 群 组 。 一 组 互相 相 
似 而 与 其 他 点 不 同 的 数据 点 往往 属于 代表 某 种 意义 的 一 个 簇 群 , 聚 类 算法 就 是 要 把 这 些 相 
似 的 数据 划分 到 同一 个 簇 群 ,在 同一 徐 群 中 的 数据 点 具有 较 高 的 相似 度 ,而 不 同 徐 中 的 数据 
点 差异 较 大 。 与 分 类 不 同 , 聚 类 不 依赖 于 预先 定义 的 类 别 和 带 标号 的 训练 实例 ,所 以 聚 类 分 
析 非 常 适用 于 异常 检测 方面 的 研究 。 

聚 类 问题 可 以 抽象 地 描述 为 在 给 定数 据 集中 进行 划分 的 同时 优化 一 个 特定 的 目标 函 
A, 4 S 为 由 d 维度 量 空间 的 点 代表 的 个 数据 对 象 的 集合 ,将 S 分 成 上 个 子 集 Ci ， 
Cz 7C, 的 一 个 划分 称 为 - 聚 类 (k-clustering) ,其 中 每 个 C; 称 为 一 个 徐 。 两 个 数据 对 象 
之 间 的 距离 通过 一 定 的 度量 方法 来 确定 ,度量 函数 的 选取 与 具体 的 应 用 息息相关 ,最 广泛 使 
用 的 是 欧式 距离 (Euclidean distance)。 它 的 定义 如 下 : 

dlisj) = J| xa —xa l* +] za — xi +e +] zy — azr |? (9-1) 
其 中 i Gea exo ott? Lip) M j= Gra emi tcm ) 是 两 个 p 维 的 数据 对 象 。 


9.2.2. 系统 整体 架构 和 算法 设计 


基于 无 监督 聚 类 的 异常 检测 算法 建立 在 两 个 假设 上 2 ,第 一 个 假设 是 正常 行为 的 数 
目 远 远大 于 异常 行为 的 数目 。 第 二 个 假设 是 异常 行为 和 正常 行为 的 差异 性 比较 大 。 该 方法 
的 基本 思想 就 是 由 于 入 侵 行为 和 正常 行为 不 同 且 数目 相对 很 少 , 因 此 它们 在 能 够 检测 到 的 
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数据 中 呈现 比较 特殊 的 特性 。 
本 文 基于 无 监督 聚 类 的 异常 检测 算法 主要 包括 四 个 部 分 ,一 是 数据 预 处 理 部 分 ,二 是 无 
监督 聚 类 算法 ,三 是 聚 类 质量 评估 算法 ,四 是 检测 算法 。 整 体系 统 架 构 设 计 如 图 9-1 所 示 。 


利用 K-means[[ 算 | 。| TITTEN aR 
数据 预 处 理 ”上 一 一 | 法 进行 聚 类 聚 类 质量 评估 异常 检测 


图 9-1 系统 架构 设计 图 


9.2.3 数据 预 处 理 


成 功 的 数据 分 析 中 绝 大 部 分 的 工作 取决 于 数据 预 处 理 , 数 据 本 身 是 混乱 的 ,在 让 数据 产 
生 价 值 之 前 ,必须 对 数据 进行 清洗 ,处理 统计 、 融 合 和 挖掘 等 操作 。 本 文 先 对 数据 集 进 行 统 
计 分 析 , 基 于 R 做 数据 可 视 化 ,发 现 数据 的 元 余 性 和 维度 分 布 特征 ,根据 分 析 结 果 对 数据 进 
行 预 处 理 , 包 括 去 宛 余 、 难 度 级 别 抽样 和 特征 标准 化 等 操作 。 

通过 对 数据 的 统计 分 析 , 我 们 可 以 发 现 数据 集 存在 明显 的 两 个 问题 "中 。 一 是 数据 集 
中 存在 大 量 的 完 余 数据 ,其 中 训练 集 和 测试 集 分 别 存在 78% 和 75% 的 宛 余 , 如 果 不 去 除 这 
些 完 余 信息 将 会 导 臻 最终 学 习 出 的 模型 向 频繁 出 现 的 数据 过 拟 合 而 不 能 检测 出 稀 朴 的 网 络 
异常 流量 ; 二 是 数据 分 类 的 难度 级 别 分 布 很 不 平衡 ,超过 80% 的 样本 数据 是 很 容易 区 分 , 即 
这 些 样本 点 之 间 的 差异 较 大 ,这 也 使 得 常见 的 质量 评估 方法 如 准确 率 (accuracy)、 检 出 率 
(detection rate) 和 假 阳 性 (false positive) 等 普遍 计算 值 较 高 ,不 适用 于 模型 的 评估 ,同时 这 
也 为 之 后 质量 评估 算法 的 选择 提供 了 指导 。 因 此 本 文 先 对 数据 进行 去 元 余 和 难度 级 别 抽 
样 ,使 得 数据 集 与 现实 的 网 络 流量 更 加 相似 。 

进一步 分 析 , 由 于 整个 数据 集 包 括 离散 的 和 连续 的 属性 特征 变量 ,其 中 离散 型 变量 还 存 
在 非 数 值 型 属性 特征 ,对 于 这 些 特 征 无 法 直接 通过 欧 氏 距离 来 计算 ,所 以 需要 对 它们 进行 分 
别 的 处 理 。 对 离散 型 的 属性 特征 变量 我 们 通过 编码 将 其 转换 为 连续 型 属性 变量 。 对 于 连续 
型 属性 特征 变量 来 说 ,不 同 的 属性 特征 有 不 同 的 度量 标准 ,因此 如 果 不 对 原始 数据 进行 预 处 
理 的 话 就 有 可 能 产生 大 数 掩盖 小 数 的 问题 ,根据 公式 (9-1) 可 知 在 计算 欧式 距离 时 结果 将 几 
乎 由 基准 大 的 特征 决定 。 为 了 解决 这 个 问题 ,我 们 必须 将 数据 的 特征 属性 值 进行 标准 化 , 即 
对 每 个 特征 值 求 平均 ,用 每 个 特征 值 减 去 平均 值 ,然后 除 以 特征 值 的 标准 差 , 标 准 分 计算 公 
式 如 下 所 示 : 


N; = (9-2) 
其 中 zn yza，…zn 是 属性 三 的 ?个 特征 值 ,w 是 /的 平均 值 , 即 : 
iy 
LI (9-3) 
u Nout 


是 了 的 标准 差 ,可 以 用 如 下 变形 公式 简化 计算 : 


N 
Dist 
a= Jaw (9-4) 


对 于 每 条 流量 数据 记录 的 属性 特征 按照 以 上 公式 (9-2) 一 式 (9-4) 计 算得 到 新 的 数据 ， 
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这 相当 于 利用 统计 特征 将 原始 实例 的 特征 属性 映射 到 一 个 标准 的 属性 空间 上 ,有 利于 减少 
上 面 所 述 问题 。 


9.2.4 聚 类 算法 


由 于 K-means 算法 简单 易 实 现 ,上 且 具 有 很 好 扩展 性 ,目前 是 应 用 最 为 广泛 的 聚 类 算法 。 
但 它 却 受 k 取 值 和 聚 类 初始 中 心 点 的 选取 不 同 影响 很 大 ,而 且 很 难 确 定 合适 A 的 取 值 。 
此 本 文采 用 了 改进 后 的 K-means++ 聚 类 算法 ,再 将 其 基于 Spark MLlib 做 并 行 化 实现 的 算 
法 K-meansII!? ,该 算法 的 初始 化 过 程 可 以 近似 地 得 到 最 优 的 初始 中 心 点 ,同时 可 以 并 行 
地 在 多 个 节点 上 进行 计算 ,算法 伪 代 码 如 表 9-5 所 示 。 其 中 A 为 要 生成 的 聚 类 数 ,4 为 过 采 
用 因子 。 本 文 实验 中 将 通过 多 次 对 比 实验 ,根据 聚 类 模型 质量 选取 较 合理 的 & 值 。 


39-5. K-meansII 算法 


Algorithm 1 K-meansII (k,@) initialization 


Input: Training data X, parameters (k,l) 

Output; Model 

1. C--sample a point uniformly at random from X 

2. V<gx(C) 

3. for O(log V) times do 

4. C’<-sample each point x€ X independently with 


-d 
probability p, = 


5. C-CUC 

6. end for 

7. For r€ C,set o, to be the number of points in X closer 
to x than any other point in C 

8. Recluster the weighted points in C into k clusters 


9.2.5. “化 类 质量 评估 算法 

如 9.2.3 节 所 述 , 对 于 本 文 所 使 用 的 数据 集 , 常 用 的 质量 评估 方法 如 准确 率 (accuracy)、 检 
tH % (detection rate) 和 假 阳 性 (false positive) 等 在 多 个 模型 的 评估 计算 值 都 普遍 较 高 ,很 难 
看 出 模型 的 差异 性 ,这 不 利于 本 文 实 验 的 聚 类 质量 评估 ,因此 本 文采 用 计算 所 有 艇 的 加 权 平 
EJW entropy ,标准 化 互信 息 NMICNormalized Mutual information) 两 项 指标 来 评价 聚 类 
质量 。 

1) 加 权 平均 entropy 是 常用 的 同 质 性 指标 ,如 果 一 个 聚 类 结果 好 ,那么 结果 簇 中 不 应 
该 包含 其 他 类 型 , 徐 中 样本 类 型 大 体 相同 ,因而 炉 值 较 低 。 我 们 可 以 对 各 个 簇 的 粹 加 权 平 
均 , 将 平均 值 作为 聚 类 质量 得 分 ,单个 徐 的 炉 值 计算 公式 如 下 : 


H(X) —— 9) pGologpG) (9-5) 
S 


其 中 pD Ao TK PEAR AEI rp h RER 
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2) NMI 评 估 函 数 将 对 比 输出 类 簇 标记 ( 设 为 向 量 X) 及 真实 标记 ( 设 为 向 量 Y) ,本 文 将 
计算 公式 定义 为 : 


NMI = TIX,Y) _ (9-6) 
VH(X)H(Y) 
HH ICX.Y) = >) Lex wloe( FY. ) 表示 X 和 了 之 间 的 互信 息 ,NMI 取 值 区 间 
yEY x€x 


为 [0,1] , 取 值 越 高 说 明 聚 类 质量 越 好 。 
3) 算法 的 执行 效率 则 以 程序 运行 时 间作 为 评价 指标 。 


9.2.6 检测 算法 


根据 学 习 出 的 聚 类 模型 ,我 们 可 以 建立 一 个 真正 的 异常 检测 系统 。 以 往 的 异常 检测 研 
ji p 079 ,检测 算法 通常 根据 最 终生 成 的 类 簇 数 据 量 大 小 来 简单 快速 地 判定 该 类 簇 是 否 属 
于 正常 类 ,然而 这 种 方法 的 有 效 性 与 正常 行为 的 之 类 数目 密切 相关 。 如 果 正 常 行为 类 被 划 
分 得 过 细 ,每 个 之 类 都 在 特征 空间 中 有 其 独特 的 类 中 心 ,这 必 将 导致 单个 之 类 的 数据 量 相对 
减少 ,甚至 小 于 某 些 异 常 类 包含 的 数据 量 。 在 这 种 情况 下 ,就 会 导致 错误 地 将 正常 的 数据 类 
划分 为 异常 ,或 者 将 异常 的 类 划分 为 正常 。 另 一 方面 ,该 算法 无 法 很 好 地 满足 本 文 提出 的 实 
时 流 更 新 模型 数据 库 的 需求 。 

根据 9. 2. 2 节 所 述 的 两 个 假设 ,本 文 提 出 一 种 新 的 异常 检测 算法 , 即 度量 新 数据 点 到 最 
近 的 簇 中 心 的 距离 ,如果 这 个 距离 超出 某 个 设 定 的 国 值 ,那么 就 表示 这 个 数据 点 是 异常 的 。 
阔 值 的 确定 则 与 数据 规模 的 大 小 密切 相关 ,我 们 可 以 把 阔 值 设 定 为 已 知 数据 中 离 中 心 点 最 
远 的 第 100 个 点 到 中 心 的 距离 ,在 新 的 数据 点 出 现 的 时 候 使 用 阔 值 (threshold) 进行 评估 。 
举例 来 说 ,我 们 可 以 使 用 Spark Streaming 对 来 源 于 Flume, Kafka 或 HDFS 文件 的 小 批量 
数据 计算 函数 值 , 只 要 计算 结果 超过 阔 值 就 触发 邮件 报警 或 更 新 数据 库 。 检 测算 法 伪 代 码 
描述 如 下 : 

假设 zx 为 要 检测 的 一 个 网 络 数据 包 。 

step 1 利用 数据 预 处 理 算法 得 到 的 统计 数据 将 工 标准 化 ,zz“; 

step 2 i=l; 


step 3 repeat; 

step 4 计算 C, 的 中 心 点 O; 与 x 的 距离 , 即 dist(O x); 

step 5 until j > num. cluster; 

step 6 找到 最 小 的 dist(O; «x JE 5 WE PRI LE CIN EE s 

step 7. 若 该 最 小 距离 超过 阔 值 , 则 x 是 异常 数据 包 ,否则 为 正常 数据 包 。 
该 检测 算法 非常 简单 快速 ,因此 效率 很 高 。 


9.3 实现 方法 和 程序 设计 


根据 9. 2 节 所 述 的 系统 架构 和 算法 设计 方案 ,进行 具体 的 程序 设计 实现 ,整体 程序 流程 
图 如 图 9-2 所 示 。 
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平台 和 数据 准备 


1 
级 别 抽样 

1 

属性 特征 转换 


1 
特征 标准 化 


1 
数据 分 析 和 可 利用 K-MeanslI 算 法 Tm 
视 化 进行 聚 类 L—-| 聚 类 质量 评估 


Y 


异常 检测 y 


图 9-2 程序 流程 图 


9.3.1 搭建 Spark 集群 实验 平台 


本 文 实验 平台 使 用 Ubuntul4. 04 系统 ,基于 Apache Spark-2. 0. 2 环境 ,其 他 相关 环境 
有 Apache Hadoop-2. 6. 0,JDK-1. 8 fil Scala-2. 11.7。 
集群 由 一 个 主 节点 和 三 个 从 属 节点 构成 ,硬件 配置 如 表 9-6 所 示 。 
X96 集群 硬件 配置 


主机 序号 主 机 名 IP CPU 十 内 存 
1 master 192. 168. 18. 101 4 核心 , 8G 
2 serverl 192. 168. 18. 102 2 核心 ,4G 
3 server? 192. 168. 18. 103 2 核心 ,4G 
4 server3 192. 168. 18. 104 2 核心 ,4G 


为 了 方便 集群 的 管理 ,本 文 将 集群 环境 的 初始 化 过 程 写成 自动 化 脚本 ,脚本 文件 放 在 项 
目 工程 根 目 录 的 bash 目录 下 ,安装 完 各 个 系统 组 件 后 只 需 运 行 脚 本 bash/setup-env. sh 就 
可 以 完成 集群 环境 的 初始 化 。 


9.3.2 程序 运行 说 明 
整个 程序 项 目 采 用 Scala 十 Sbt 实现 ,目录 结构 如 下 : 
./src 


| — main 
| — scala 


第 9 章 基于 Spark 聚 类 算法 的 网 络 流量 异常 检测 ES 


| —Kdd99MLApp. scala 


(=r 
| —ViewKmeans.R 


build.sbt 


工程 的 目录 结构 如 图 9-3 所 示 。 


图 9-3 工程 的 目录 结构 


在 提供 的 程序 源 代码 中 ,程序 入 口 main. 函数 位 置 在 源 文件 src/main/scala/ 
Kdd99MLApp. scala 中 ,各 个 模块 程序 的 执行 代码 都 在 Kdd99MLApp. scala 中 。 由 于 要 运 
行 的 程序 模块 比较 繁多 ,该 文件 按照 系统 整体 架构 设计 将 各 个 算法 模块 分 成 
clusteringTake0 ,clusteringTakel 等 这 样 的 函数 ,序号 依次 递增 ,需要 运行 哪个 模块 就 将 其 
添加 到 main 函数 中 ,方便 程序 的 管理 和 维护 。 

项 目 使 用 Sbt 构建 打包 成 jar 包 后 .通过 编写 Spark-submit 命令 提交 到 Spark 集群 中 
运行 ,根据 集群 的 可 用 资源 和 数据 集 大 小 合理 分 配 计算 资源 ,提交 命令 的 详细 脚本 文件 见 
bash/runMLApp. sh, 其 中 命令 示例 如 下 : 


#1 /usr/bin/env bash 

$ (SPARK HOME) /bin/spark- submit V 

—- class " $ nainClass" V 

—- master spark://master:7077 \ 

—- executor - memory 2G V 

—- total- executor - cores 8 V 

.. /target/scala- 2.11/spark kdd 2.11 - 1.0.jar 


9.3.3 数据 预 处 理 


将 kdd99. data 数据 文件 解压 后 上 传 到 HDFS 上 ,通过 新 建 一 个 新 的 Spark 会 话 按照 
CSV 的 格式 读 取 到 DataFrame 中 ,并 先 对 数据 做 标签 类 别 统计 , 按 样本 数 从 多 到 少 排序 , 统 
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计 结 果 如 图 9-4 所 示 。 
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图 9-4 标签 类 别 统计 


从 图 中 可 以 看 出 数据 集中 样本 有 23 个 不 同类 型 ,其 中 除了 正常 类 型 Cnormal) , smurf. 
和 neptune, 类 型 的 网 络 攻击 最 多 ,可 见 在 本 文 所 构建 的 异常 检测 系统 中 ,已 知 的 常见 攻击 
类 型 并 不 应 该 判断 为 网 络 流量 异常 。 

Spark Mllib 在 构建 数据 挖掘 工作 流 上 ,提供 十 分 完善 的 高 层次 数据 处 理 组 件 , 以 更 加 
方便 地 构建 复杂 的 机 器 学 习 工 作 流 式 应 用 。 程 序 实现 上 ,一 个 Pipeline 在 结构 上 会 包含 一 
个 或 多 个 PipelineStage, 每 一 个 PipelineStage 都 会 完成 特定 的 一 个 任务 ,如 数据 集 处 理 转 
化 ,模型 训练 ,参数 设置 或 数据 预测 等 。 根 据 本 文 数据 集 预 处 理 算法 ,整体 算法 的 代码 实现 
对 应 工程 目录 下 的 sre/main/scala/Kdd99DataProcess. scala 文件 ,其 中 构建 相应 的 
PipelineStage 的 核心 实现 代码 如 下 。 


val assemblerCols = Set(data.columns: * ) -- Seq("protocol type", 
"service", "flag","label")++ 
Seq(protoTypeVecCol, serviceVecCol, flagVecCol) 
val assembler = new VectorAssembler().setInputCols(assemblerCols. toArray).setOutputCol 
("featureVector") 
val scaler = new StandardScaler(). 
setInputCol("featureVector"). 
setOutputCol("scaledFeatureVector"). 
setWithStd(true). 
setWithMean(false) 


9.3.4 基于 R 的 数据 分 析 和 可 视 化 


要 进一步 观察 数据 的 分 布 ,通常 采取 将 数据 降 维 后 可 视 化 。Spark 本 身 没 有 提供 可 视 
化 工具 ,但 添加 了 R 语言 的 支持 ,R 是 一 种 用 于 统计 计算 和 统计 制图 的 优秀 工具 ,集成 了 许 
多 方便 使 用 的 绘图 算法 包 。 我 们 通过 从 RDD 中 读 入 CSV 数据 ,使 用 三 个 随机 单位 向 量 ,将 
41 维 数据 集 向 着 三 个 单位 向 量 的 方向 进行 投影 ,从 而 得 到 一 个 三 维 数据 集 。 虽 然 可 以 采用 
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更 加 复杂 的 降 维 算法 ,但 由 于 数据 集 较 大 ,这 些 算法 都 需要 在 R 上 运行 时 间 很 长 ,因此 本 文 
采取 相对 简单 的 随机 投影 办 法 可 以 大 大 提高 运行 速度 ,同时 也 足以 满足 数据 可 视 化 的 需求 。 
可 视 化 算法 如 下 所 述 : 


step 1 用 k=100 构造 聚 类 模型 ,将 每 个 数据 点 都 映射 到 一 个 入 编号 ; 
step 2 MM RDD 中 读 取 CSV 格式 数据 并 转化 为 向 量 集 ; 

step 3 ”创建 三 维 空间 的 随机 单位 向 量 ; 

step 4 投影 数据 . 


该 可 视 化 算法 模块 的 详细 代码 请 参考 工程 目录 下 的 src/main/ R/viewKmeans. R X 
件 , 其 中 核心 实现 代码 如 下 : 


library(rgl) 

# make a random 3d projection and normalize 

random projection <- matrix(data = rnorm(3 * ncol(data) ),ncol = 3) 
random projection norm < - random projection/sqrt ( rowSums (random projection * random _ 
projection) ) 

# project and make a new data frame 

projected_data<- data. frame(data% * * random projection norm) 
num clusters «- max(clusters) 

palette <- rainbow(num clusters) 

colors - sapply(clusters, function(c) palette[c]) 
plot3d(projected data, col = colors, size = 10) 


图 9-5 为 数据 可 视 化 结果 LE bos T AES TRI I TIC e AS Ind f AS d f PL Pe SBA 
图 中 可 以 看 出 ,许多 点 都 重重 在 一 起 ,而 且 数 据点 分 布 非常 稀疏 ,可 以 明显 地 看 出 图 形 呈 现 
“L” 的 分 布 形状 。 因 此 我 们 可 以 得 出 ,数据 点 在 两 个 维度 上 变化 较 大 而 在 其 他 维度 上 变化 
并 不 明显 ,这 也 验证 了 数据 预 处 理 中 特征 规范 化 的 必要 性 ,只 有 对 不 同 维度 尺寸 进行 规范 化 
后 才能 把 特征 放 在 差不多 的 维度 基准 上 。 


? iii je 1565 a 2.5e*05 


2e+04 
H Te+04 
a 
a 广 0 
Lua |- -1e*04 
a 
8 — -2e404 
x 
4e+04 
2e+04 
0 
X2 
-2e+04 
xi 
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因此 本 文 将 特征 进行 规范 化 处 理 , 将 每 个 特征 转换 为 标准 得 分 ,采用 同样 的 方法 对 规范 
化 后 的 数据 进行 可 视 化 ,如 图 9-6 所 示 。 
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XI 
图 9-6 标准 化 数据 三 维 投影 


与 预期 结果 相 一 致 ,可 以 看 出 数据 点 之 间 分 布 紧凑 ,由 于 有 100 个 簇 ,虽然 很 难 从 图 形 
中 看 出 每 个 点 属于 哪个 簇 ,但 是 可 以 看 出 除了 个 别离 散 点 之 外 大 多 数 点 分 布 在 一 个 方向 上 ， 
间隔 相差 不 远 ,可见 分 类 算法 具有 完整 性 。 


9.3.5 聚 类 算法 


Spark MLlib 提供 了 许多 聚 类 算法 支持 ,本 文采 用 K-meansII 算法 对 数据 集 进 行 聚 类 ， 
在 k 值 的 选取 上 ,通过 多 次 对 比 实验 ,根据 质量 评估 函数 得 到 较 优 值 。 该 算法 的 详细 代码 请 
参考 工程 目录 下 的 src/main/scala/Kdd99MLApp. scala 文件 ,核心 代码 实现 如 下 : 


val kmeans = new KMeans( ). 
setSeed( Random. nextLong() ) . 
setK(k). 
setPredictionCol("cluster"). 
setFeaturesCol("scaledFeatureVector"). 
setMaxIter(40). 
setTol(1.0e- 6) 
val pipeline = new Pipeline(). setStages(Array(protoTypeEncoder, serviceEncoder, flagEncoder, 
assembler, scaler, kmeans) ) 
val pipelineModel = pipeline. fit(data) 


9.3.6 聚 类 质量 评估 
INCE HIR entropy 算法 实现 过 程 描述 如 下 : 
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step 1 对 每 个 流量 数据 记录 预测 能 类 别 ; 

step2 EIE Key 值 提取 标号 集合 ; 

step 3 统计 计算 集合 中 各 簇 标 号 出 现 的 次 数 ; 

step 4 {RPMI entropy; 

step 5 ”根据 簇 的 大 小 作为 权 值 计算 所 有 簇 的 加 权 平均 值 . 


该 算法 的 详细 代码 可 参考 工程 目录 下 的 src/main/scala/Evaluation . scala 和 
Kdd99MLApp. scala 文件 ,其 核心 代码 如 下 : 


val weightedClusterEntropy = clusterLabel. groupByKey 
{ case(cluster, ) => cluster}. 
mapGroups (case( ,clusterLabels) => 
val labels = clusterLabels. map (case (_, label) => label}. toSeq 
val labelCounts = labels. groupBy( identity). values. map(_. size) 
labels. size * UtilTool. entropy(labelCounts) 
).collect() 


定义 NMI 计算 函数 如 下 : 


def MI(labelsTrue:Array[String], labelsPred:Array[Int]) = ( 
val N:Int = labelsTrue. length 
val mapTrue:Map[String, Int] = labelsTrue. groupBy(x => x). mapValues (_. length) 
val mapPred:Map[ Int, Int] = labelsPred. groupBy(x = > x) . mapValues(_. length) 
labelsTrue. zip(labelsPred) . groupBy(x = > x). mapValues(_. length). map{ 
val wk = BigDecimal (mapTrue(x) ) 
val cj = BigDecimal (mapPred( y) ) 
val common = BigDecimal (z) 
val bottom = N * common/(wk * cj) 
common/N * Math. log( bottom. toDouble) 
}. sum 


} 
def NMI(labelsTrue:Array[ String], labelsPred:Array[ Int]) = { 
MI(labelsTrue, labelsPred) /Math. sqrt(entropy2(labelsTrue) * entropy2(labelsPred) ) 


)MI(labelsTrue, labelsPred) /Math. sqrt (entropy2(labelsTrue) * entropy2(labelsPred) ) 
} 


9.3.7 异常 检测 


根据 上 述 异常 检测 算法 实现 如 下 ,该 算法 的 详细 代码 请 参考 工程 目录 下 的 src/main/ 
scala/Kdd99MLApp. scala 文件 。 


val threshold = clustered. select("cluster", "scaledFeatureVector").as[ (Int, Vector)]. 
map{ case(cluster, vector) => Vectors. sqdist(centroids(cluster), vector)}. orderBy( $ "value". 
desc). take(100). last 
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9.4 结果 展示 


9.4.1 Spark 平台 说 明 与 作业 提交 演示 


启动 Apache Spark 集群 实验 平台 ,通过 Hadoop 命令 操作 将 KDD99 数据 集 上 传 到 
HDFS 上 。 操 作 示例 如 图 9-7 一 图 9-9 Bram. 


图 9-7 启动 Spark 集群 


图 9-8 上 传 数据 集 到 HDFS 


spart Spark Master at spark://master:7077 


Workers 


图 9-9 Spark web 监控 
构建 打包 程序 ,通过 spark-submit 提交 jar 包 ,运行 Spark 聚 类 作业 。 根 据 集群 环境 配 
置 合理 分 配给 作业 可 用 资源 ,在 本 文 实验 中 我 们 分 配 了 3 个 Executor, 每 个 Executor 有 2 
个 可 用 核心 数 , 可 用 内 存 为 2GB, 操 作 示例 如 图 9-10 和 图 9-11 所 示 。 


图 9-10 ”运行 Spark BARB 
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Sá... Application: Kdd99 kmeans mlapp 


10: ap 2017012083480 0000 


9-11 作业 监控 页 面 


9.4.2 聚 类 算法 及 其 质量 评估 


结合 9. 3.2 节 和 9.3. 3 节 数 据 分 析 结 果 , 本 文通 过 设计 实验 分 别 对 比 类 复数 k 取 不 同 
值 时 所 得 到 的 聚 类 评估 质量 值 , 确 定 一 个 较为 合理 的 k 值 。 实 验 过 程 充 分 地 发 挥 了 Spark 
并 行 计算 的 优势 ,将 k 值 区间 范 围 赋值 为 一 个 并 行 集 合 类 型 ,这样 对 每 个 k 值 的 并 行 计 算 可 
以 在 集群 中 并 行 执行 ,由 Spark 对 聚 类 计算 任务 进行 统一 管理 ,同时 每 个 k 值 对 应 的 并 行 计 
算 也 会 在 集群 中 分 布 式 执行 。 在 实际 生产 环境 中 ,通过 充分 利用 大 规模 集群 的 处 理 能 力 , 可 
以 提高 整个 集群 的 总 体 吞吐 率 。 
由 于 数据 集中 有 23 种 不 同 的 标签 类 型 ,显然 k 值 至 少 应 大 于 23 ,同时 当 k 取 100 时 预 
佑 聚 类 结果 较为 合理 ,因此 我 们 选取 以 20 为 递增 的 闭合 区 间 [20,200] 对 k 值 进行 实验 ,分 
别 得 到 聚 类 结果 的 加 权 平 均 灶 entropy 和 NMI, 结 果 分 别 如 图 9-12 和 图 9-13 所 示 o 
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Fifi VA Fe 4 K 值 增加 至 140 时 ,过 了 这 个 临界 点 之 后 继续 增加 k ERA EL A 
不 会 再 显著 降低 。 因 此 这 个 点 可 以 认为 是 k 值得 分 曲线 的 拐点 ,曲线 通常 在 拐点 之 后 会 继 
续 下 行 但 最 终 趋 于 水 平 。 因 此 k 值 取 160 较为 合理 ,此 时 既 保 证 了 聚 类 效果 较 优 ,又 权衡 了 
算法 的 执行 效率 。 为 了 进一步 验证 其 合理 性 ,我 们 继续 采用 NMI 指标 对 算法 进行 评估 。 

NMI 评估 方法 的 优点 在 于 其 不 需要 假设 算法 的 聚 类 个 数 和 真实 引用 类 个 数 相 同 ,是 实 
际 使 用 中 更 为 广泛 的 准确 度量 。NMI 取 值 在 区 间 [0,1] 内 , 当 值 等 于 1 时 ,代表 真实 引用 类 
与 聚 类 算法 结果 之 间 完 全 匹配 。 从 图 中 可 以 看 出 ,其 评估 结果 与 上 述 Entropy 结果 相 一 致 ， 
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图 9-13 不 同 k 值 的 NMI 


因此 我 们 选取 k 等 于 160 作为 最 终 模 型 训练 参 
9.4.3 有 效 性 分 析 


由 Karpis Lab 开发 的 CLUTOD5 是 目前 运行 速度 最 快 , 效 果 最 佳 的 K-means 聚 类 工 
具 之 一 ,本 文 利用 CLUTO 对 同一 数据 集 进行 聚 类 ,将 其 聚 类 效果 的 加 权 平 均 炉 值 entropy 
和 NMI 值 作 为 上 界 参考 , 即 : 若 本 文 聚 类 算法 能 够 获得 接近 于 CLUTO 的 聚 类 效果 ,就 能 
够 说 明 算法 可 行 性 和 有 效 性 。 

选取 二 160, 将 同样 的 数据 集 作 为 输入 ,在 主 节点 Master 上 单机 运行 CLUTO BX, 
程序 运行 示例 如 图 9-14 所 示 。 记 录 实 验 结果 ,与 本 文 构建 的 Spark 聚 类 程序 进行 聚 类 质量 
和 算法 效率 对 比 , 结 果 如 表 9-7 所 示 


数 , 构 建 本 文 的 异常 检测 系统 。 


图 9-14 不 同 k 值 的 NMI 


表 9-7 算法 评估 对 比 (k=160) 


算法 评估 Entropy NMI 1/O 时 间 (sec) BE ERT IA] (sec) 
Spark R% 0.025 0. 875 9.0 104.0 
CLUTO 0.010 0. 931 24.2 115.5 


从 表 9-7 可 见 ,本 文 提 出 的 Spark 聚 类 算法 接近 于 CLUTO 聚 类 效果 ,表现 出 比较 高 检 
测 率 和 聚 类 评估 指标 ,同时 在 算法 执行 效率 上 发 挥 了 Spark 并 行 计 算 的 优势 ,又 加 上 其 内 存 
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计算 特性 ,在 数据 L/O 读 写 时 间 和 聚 类 和 迭代 计算 时 间 上 都 有 明显 缩短 。 实 验 结果 表明 ,本 
文 的 聚 类 异常 检测 算法 在 检测 性 能 上 具有 和 较 高 可 行 性 和 有 效 性 。 


9.4.4 示例 说 明 


最 后 ,根据 聚 类 算法 学 习 构 建 出 一 个 网 络 异 常 检测 模型 。 作 为 示例 ,本 文 在 原始 数据 集 
上 进行 异常 检查 , 找 出 输入 数据 中 我 们 认为 最 不 寻常 的 异常 数据 样本 进行 分 析 ,该 样本 数据 
如 下 所 示 : 


0, tcp, http, $1, 181,5450, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 8, 8, 0. 00, 0. 00, 0. 00,0. 00, 1. 00, 
0.00,0.00,231,255,1. 00,0. 00,0. 11,0. 00, 0. 00,0. 00,0. 00,0. 00, normal. 


分 析 该 异常 连接 ,可 以 发 现 虽然 该 连接 被 标记 为 normal 类 型 ,但 却 在 很 短 的 时 间 内 与 
同一 个 服务 器 建立 了 超过 200 个 连接 ,并 且 TCP 状态 表现 为 不 正常 的 S1。 因 此 ,将 该 样本 
判定 为 异常 点 是 合理 的 。 


9.5 展望 


本 文中 总 结 了 目前 非 监 督学 习 算法 在 异常 检测 中 的 应 用 ,并 基于 Spark 分 布 式 内 存 计 
算 框 架构 建 出 一 个 并 行 的 网 络 异 常 检 测 系统 ,在 数据 处 理 、 聚 类 算法 和 异常 检测 算法 上 做 了 
优化 ,并 利用 KDD99 公开 数据 集 进行 实验 ,其 结果 表明 该 模型 具有 和 较 高 的 可 行 性 和 有 效 
性 ,但 在 进一步 优化 系统 模型 上 还 有 很 多 工作 值得 研究 。 

在 实际 的 网 络 环境 中 ,网 络 人 侵 行 为 上 往往 是 不 可 预 估 的 ,黑客 会 不 断 地 改 用 新 的 人 侵 
方式 ,异常 流量 就 会 不 断 更 新 变化 ,因此 很 难 通 过 已 知 的 网 络 流量 类 型 来 构建 高 效 的 异常 检 
测 模型 。 实 际 生产 中 通常 以 准 实时 的 方式 对 训练 数据 评分 ,不 断 更 新 系统 数据 库 。 通 过 相 
关 调 研 ,本 文 的 系统 可 以 进一步 集成 Spark Streaming 架构 加 以 实现 ,结合 来 源 于 kafka 等 
的 实时 小 批量 数据 ,以 准 实时 的 方式 对 模型 进行 评分 ,构建 出 批量 处 理 十 实时 处 理 的 
lambda 架构 ,更 好 地 满足 实际 的 系统 需求 。 此 外 ,在 Spark MLlib 还 有 一 个 KmeansModel 
的 变 体 模型 , 即 StreamingKmeans, StreamingK means 模型 能 够 根据 增 量 对 簇 进行 更 新 ,而 
不 仅仅 只 是 用 已 知 的 簇 群 评价 新 的 数据 ,而 是 进一步 做 到 近似 地 通过 学 习 新 数据 来 优化 聚 

在 度量 样本 相似 性 上 ,本 文 只 是 简单 地 采用 了 欧式 距离 来 衡量 点 之 间 的 相似 度 ,目前 
Spark MLlib 还 提供 了 其 他 距离 函数 ,如 马 氏 距离 (Mahalanobis distance) 等 ,采用 合理 的 距 
离 函 数 可 以 更 好 地 描述 特征 的 关联 关系 。 在 选择 聚 类 质量 评估 指标 上 ,我 们 也 还 未 做 深入 
的 探讨 , 除了 本 文 所 采用 的 评估 指标 ,还 可 以 用 更 复杂 的 如 轮廓 系数 (Silhouette 
coefficient) ,该 系数 可 以 在 不 给 定 标号 的 条 件 下 来 选择 合适 的 k 值 , 既 可 以 评价 簇 内 点 的 紧 
密 程度 又 可 以 评价 点 与 其 他 簇 之 间 的 紧密 程度 ,可 能 对 模型 效果 有 所 提高 。 

本 文 在 k 值 的 选 定 上 需要 人 工 的 干预 ,目前 有 不 少 相关 研究 提出 了 自动 决定 聚 类 数 的 
算法 m9。 此 外 ,除了 均值 聚 类 外 ,我 们 还 可 以 尝试 其 他 模型 ,如 : 高 斯 混合 模型 、 
DBSCAN CURED5 等 非 监督 学 习 模型 或 许可 用 这 些 模型 来 处 理 数据 点 和 艇 中 心 之 间 更 


399 


400. 


云 计 算 与 大 数据 技术 理论 及 应 用 


加 微妙 的 关系 。 
习题 


1. 基于 Spark 聚 类 算法 的 网 络 流量 异常 检测 与 传统 的 检测 方法 有 何不 同 ( 最 大 的 
别 )? 

2. 请 根据 教材 内 容重 现 基于 Spark 聚 类 算法 的 网 络 流量 异常 检测 的 实现 程序 。 

3. 请 总 结 基 于 Spark 聚 类 算法 的 网 络 流量 异常 检测 的 现实 过 程 。 


x 


第 10 


基于 Hadoop 的 宏基 因 组 序列 比 对 计算 


本 章 主要 介绍 基于 Hadoop 平台 和 序列 比 对 软件 SOAPaligner 实现 宏基 因 组 序列 数据 
的 对 比分 析 计算 ,通过 利用 Hadoop Streaming 工具 包 进 行 了 并 行 化 数据 的 对 比分 析 计 算 ， 
缩短 了 序列 比 对 时 间 , 提 高 了 程序 的 执行 效率 ,解决 了 宏基 因 组 序列 比 对 数据 量 大 ,单机 内 
存 不 足 、 运 行 时 间 过 长 等 问题 ,将 原来 需要 6 个 小 时 左右 的 序列 比 对 时 间 缩 短 到 20 分 钟 以 
内 ,加 速 宏基 因 组 学 分 析 研 究 。 


10.1 相关 背景 介绍 与 基本 需求 


10.1.1 相关 背景 


1. 宏基 因 组 学 与 序列 比 对 

宏基 因 组 学 (Metagenomics) 又 被 称 为 环境 基因 组 学 ,这 是 一 门 直 接 研 究 自然 状态 下 微 
生物 群落 (包含 了 可 培养 的 和 不 可 培养 的 细菌 、 真 菌 和 病毒 等 基因 组 的 总 和 ) 的 学 科 。 宏 基 
因 组 学 这 一 概念 最 早 是 1998 年 由 美国 威斯康星 大 学 植物 病理 学 部 门 的 Handelsman 等 在 
研究 土壤 微生物 时 提出 的 ,其 主要 思想 就 是 将 来 自 环 境 中 的 大 量 混杂 物种 的 基因 集 在 某 种 
程度 上 作为 一 个 单个 基因 组 进行 研究 分 析 。 宏 基因 组 学 是 一 门 新 兴 的 应 用 学 科 , 经 过 十 多 
年 的 飞速 发 展 , 其 研究 对 象 从 最 初 的 土壤 微生物 发 展 到 各 式 各 样 的 环境 样本 ,例如 海洋 、 空 
气 \、 人 类 肠 道 微生物 、 沼 气 发 酵 微 生物 等 。 

第 二 代 测 序 技术 又 被 称 为 高 通 量 测序 技术 ,核心 思想 是 边 合 成 边 测序 。 这 种 测序 技术 
以 Roche 454 测序 平台 Illumina Solexa 测序 平台 和 SOLID 测序 平台 等 三 大 测序 平台 为 代 
表 , 具 有 高 通 量 、 低 成 本 的 特点 ,使 得 测序 成 本 急剧 下 降 ,甚至 其 降 速 已 远 远 超过 计算 机 领域 
著名 的 摩尔 定律 。 序 列 比 对 是 指 以 read 和 参考 基因 组 (reference genome) 为 输入 ,通过 比 
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对 确定 read 在 参考 基因 组 上 出 现 的 位 置 和 次 数 ,图 10-1 为 序列 比 对 的 示意 图 。 


Reference Genome 


Reads 
图 10-1 序列 比 对 示意 图 


最 基础 的 序列 比 对 软件 依据 其 构建 索引 的 算法 原理 可 大 致 分 为 两 类 : 基于 哈 希 表 索 引 
的 序列 比 对 方法 和 基于 后 缀 树 索 引 的 序列 比 对 算法 。 之 所 以 称 这 些 算法 为 基础 的 比 对 算 
法 ,是 因为 这 些 算 法 并 没有 结合 计算 机 领域 相关 知识 进行 特定 的 优化 ,这 也 导致 这 些 算法 在 
面 对 大 规模 输入 数据 时 往往 需要 很 长 的 运行 时 间 , 甚 至 根本 就 无 法 运行 。 第 二 代 测 序 技术 
得 到 的 下 机 数据 被 称 为 短 序列 (short reads) ,序列 的 长 度 为 几 十 到 几 百 个 碱 基 (bp) 不 等 。 
随 着 高 通 量 测序 技术 的 发 展 ,测序 数据 的 爆炸 式 增长 ,如 何 快速 准确 地 将 测序 生成 的 短 序列 
比 对 到 参考 基因 组 一 直 是 生物 信息 学 研究 的 重点 和 热点 问题 。 但 计算 机 领域 大 数据 和 云 计 
算 技术 的 出 现 给 生物 信息 学 的 发 展 带 来 了 机 遇 和 挑战 。 

由 于 大 数据 概念 的 不 断 深 入 ,很 多 大 数据 计算 分 析 和 存储 管理 工具 如 雨后春笋 般 出 现 ， 
如 Hadoop, Spark, Strom 等 。 而 生物 数据 本 身 就 符合 大 数据 的 4V 特点 ,因此 使 用 大 数据 
工具 来 储存 生物 序列 数据 .进行 序列 分 析 也 是 目前 最 热门 的 研究 方向 之 一 。 就 宏基 因 组 学 
而 言 ,由 于 数据 量 比 普通 基因 组 学 更 大 ,可 以 说 大 数据 工具 是 唯一 也 是 最 理想 的 解决 方案 。 
目前 ,由 UC Berkeley AMP lab 开发 的 ADAM 就 是 一 个 基于 Spark 的 可 扩展 的 序列 处 理 

台 , 可 以 很 好 地 解决 基因 组 数据 格式 及 处 理 流水 线 可 扩展 性 较 差 的 问题 。 

2. Hadoop Streaming 

Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 。 用 户 可 以 在 不 了 解 
分 布 式 底层 细节 的 情况 下 ,开发 分 布 式 程序 。 充 分 利用 集群 的 威力 进行 高 速 运算 和 存储 。 
Hadoop Streaming 是 Hadoop 为 方便 非 Java 用 户 编写 MapReduce 程序 而 设计 的 一 个 工具 
包 。 它 允许 用 户 将 任何 可 执行 文件 或 者 脚本 作 Mapper/Reducer, 这 大 大 提高 了 程序 员 的 开 
发 效率 。Hadoop Streaming 实现 的 关键 是 它 使 用 UNIX 标准 流 作 为 程序 与 Hadoop 之 间 
的 接口 , 它 要 求 用 户 编写 的 Mapper/Reducer 从 标准 输入 中 读 取 数据 ,并 将 结果 写 到 标准 数 
据 中 。 因 此 ,任何 程序 只 要 可 以 从 标准 输入 流 中 读 取 数据 并 且 可 以 将 数据 写 入 到 标准 输出 
流 , 那 么 该 程序 就 可 以 通过 Hadoop Streaming 使 用 其 他 语言 编写 MapReduce 程序 的 Map 
函数 和 Reduce 函数 。Hadoop Streaming 的 数据 流 如 图 10-2 Aras. 


7 ` 
1 " 1 
|| input |! map | interm.。| reduce | 7 | output |! 
|| reader (stream) | data | (stream) writer (i 
1 
EE 2 S[ Pe. _Hadoop j 
stdin stdout stdin stdout 
map reduce 
(extern.) (extern.) 


10-2 Hadoop Streaming 的 数据 流 
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由 图 可 知 , 当 一 个 可 执行 文件 作为 Mapper 时 ,每 一 个 Map 任务 都 会 以 一 个 独立 的 进 
程 启动 这 个 可 执行 文件 ,然后 在 Map 任务 运行 时 ,会 把 输入 按 行进 行 切 分 ,然后 提供 给 可 执 
行文 件 , 并 作为 它 的 标准 输入 (stdin) 内容。 接着 可 执行 文件 接收 标准 输入 的 内 容 , 运 行 出 
结果 ,并 将 结果 输出 到 标准 输出 (stdout)。 然 后 Map 从 标准 输出 收集 数据 ,并 将 其 转化 为 
< key value > 对 ,作为 Map 的 输出 。 这 些 过 程 分 别 对 应 图 10-2 中 的 1、2、3、4 四 个 数据 流 箭 
头 。 这 就 是 Hadoop Streaming 中 Map 部 分 的 工作 原理 。 

Reduce 和 Map 的 情况 大 致 相同 ,如 果 某 个 可 执行 文件 作为 Reducer 时 ,Reduce 任务 会 
启动 这 个 可 执行 文件 ,并 且 将 < key. value > 对 转化 为 行 作为 这 个 可 执行 文件 的 标准 输入 ， 
可 执行 文件 接收 标准 输入 的 内 容 ,进行 运算 ,然后 Reduce 会 收集 这 个 可 执行 文件 的 标准 输 
出 的 内 容 , 并 把 每 一 行 转化 为 < key，value > 对 ,作为 Reduce 的 输出 , 即 整个 执行 过 程 的 输 
出 。 这 些 过 程 分 别 对 应 图 10-2 中 的 5、6、7 三 个 数据 流 箭头 。 

3. Hadoop Streaming 的 命令 

Hadoop Streaming 使 用 以 下 命令 设置 MapReduce 任务 。 首 先 给 出 主要 流 命令 选项 ， 
如 表 10-1 所 示 。 


表 10-1 Hadoop Streaming 命令 主要 选项 


参 数 可 选 / 必 选 参 数 可 选 / 必 选 
-input 必 选 -file 可 选 
-output 必 选 -inputformat 可 选 
-mapper 必 选 -outputformat 可 选 
-reducer 必 选 


表 中 所 示 的 Hadoop Streaming 命令 选项 中 ,有 四 个 选项 标注 为 必 选 ,它们 的 具体 含义 
也 很 好 理解 ,分 别 用 于 指定 输入 文件 的 路 径 、 输 出 文件 的 路 径 、Map 函数 以 及 Reduce 函数 。 
其 中 ,Map 函数 和 Reduce 函数 均 为 可 执行 文件 。 剩 下 的 三 个 可 选 参数 中 ,-file 选项 用 于 将 
文件 加 入 到 Hadoop 的 Job 中 。 一 般 而 言 ,在 Hadoop Streaming 的 使 用 过 程 中 ,我 们 往往 
需要 使 用 自己 写 的 文件 作为 Map 函数 和 Reduce 函数 ,而 这 些 文件 是 Hadoop 集群 中 的 机 
器 上 所 没有 的 ,这 时 需要 使 用 -file 选项 将 这 个 可 执行 文件 加 入 到 Hadoop 的 Job 中 。 另 外 
两 个 选项 -inputformat 和 -outputformat 用 来 设置 输入 输出 文件 的 处 理 方 式 ,这 两 个 选项 后 
面 的 参数 必须 为 Java 类 。 

此 外 ,Hadoop Streaming 提供 的 通用 命令 选项 如 表 10-2 所 示 ,这 些 选项 全 部 可 选 , 这 里 
就 不 再 一 一 介绍 。 


表 10-2 Hadoop Streaming 主要 通用 选项 


参 数 可 选 / 必 选 参 数 可 选 / 必 选 
-conf 可 选 -files 可 选 
-D 可 选 -libjars 可 选 
-fs 可 选 -archives 可 选 
jt 可 选 
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4. FASTQ 格式 

本 节 案 例 使 用 FASTQ 格式 作为 输入 格式 ,FASTQ 是 一 种 存储 了 生物 序列 (通常 是 核 
酸 序列 ) 以 及 相应 的 质量 评价 的 文本 格式 。FASTQ 格式 的 序列 一 般 都 包含 有 四 行 ,第 一 行 
由 “@? 开 始 ,后 面 跟着 序列 的 描述 信息 。 第 二 行 是 序列 。 第 三 行 由 “十 开始 ,后 面 也 可 以 跟 
着 序列 的 描述 信息 。 第 四 行 是 第 二 行 序列 的 质量 评价 ,字符 数 跟 第 二 行 的 序列 是 相等 的 。 
例如 在 NCBI 看 到 的 FASTQ 格式 如 下 : 


(GHWUSI — EAS100R:6:73:941:1973# 0/1 

GATT TGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGT 

+ HWUSI — EAS100R:6:73:941:1973 # 0/1 

p QUU De +)) & S &++)(% Egg) Deer + x 7) x 55CCE >>>>>> CCCCCCC6 


10.1.2 基本 需求 


本 节 案 例 来 源 于 国防 科学 技术 大 学 计算 机 学 院 与 深圳 华 大 基因 的 合作 项 目 ,深圳 发 改 
委 项 目 “ 高 技术 服务 业 研 发 及 产业 化 专项 (专题 二 : 信息 技术 服务 ): 面向 PB 级 生物 基因 数 
据 处 理 的 国民 健康 服务 平台 ”, 国 家 自然 科学 基金 委员 会 一 一 广东 省 人 民政 府 大 数据 科学 研 
究 中 心 项 目 : 基于 天 河 二 号 超级 计算 机 的 智慧 医学 与 健康 大 数据 平台 研究 与 构建 。 在 该 项 
目 中 , 华 大 基因 研究 院 不 仅 提出 了 很 多 其 主流 业务 线 上 吸 待 解决 的 实际 问题 ,而 且 提 供 了 丰 

SOAP(Short Oligonucleotide Analysis Package) 系列 软件 是 华 大 基因 自主 研发 并 在 其 
生产 线 上 广泛 使 用 的 适用 于 第 二 代 测 序 技术 的 DNA 序列 分 析 系 列 软件 ,其 中 包括 序列 组 
装 软 件 SOAPdenovo2, SNP 检测 软件 SOAPsnp 以 及 序列 比 对 软件 SOAPaligner, 该 系列 软 
件 在 国内 外 具有 较 大 影响 力 。 然 而 由 于 设计 时 针对 的 序列 数据 远 远 不 及 现在 测序 机 器 所 生 
成 的 测序 数据 巨大 ,导致 该 系列 软件 在 现在 的 序列 分 析 过 程 中 会 产生 内 存 不 足 、 运 行 时 间 过 
长 等 实际 问题 。 针 对 这 些 问 题 ,本 节 案 例 对 SOAP 系列 软件 中 的 序列 比 对 软件 
SOAPaligner 利用 Hadoop Streaming 工具 包 进 行 了 并 行 化 实现 ,并 在 宏基 因 组 序列 数据 上 
进行 了 测试 。 


10.2 设计 方案 


10.2.1 串 行程 序 分 析 


SOAPaligner 软件 又 被 称 为 SOAP2 , 相 比 于 SOAP1, 它 的 核心 算法 以 及 索引 的 数据 结 
构 (2 路 -BWT) 发 生 了 变化 ,因此 时 空 效率 都 大 大 提升 。SOAPaligner 将 百 万 reads 比 对 到 
人 的 参考 序列 仅仅 需要 2 分 钟 。SOAPaligner 需要 大 约 两 个 小 时 形成 参考 序列 和 建立 索引 
表 。 内 存 的 使 用 量 取 决 于 参考 序列 的 大 小 。 对 于 人 的 参考 序列 (3GB) 而 言 ,大 约 需 要 7GB 
内 存 。 

SOAPaligner 的 执行 分 为 下 面 两 个 步骤 : 
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CD 为 参考 基因 组 建立 索引 文件 。 这 一 步 只 需 执行 一 次 ,生成 的 索引 文件 可 重复 使 用 。 

(2) 序列 比 对 ,即将 reads 比 对 到 参考 基因 组 上 。 测 序 共有 单 端 测序 (single-end) 和 双 
端 测 序 (paired-end) 两 种 形式 ,其 中 双 端 测序 是 指 检测 基因 片段 两 段 的 序列 信息 ,这 样 最 后 
会 得 到 两 个 相互 对 应 的 FASTO 文件 ( 即 测序 下 机 文件 ), 而 单 端 测序 就 只 会 生成 一 个 
FASTQ 文 件 。 针 对 这 两 种 测序 方式 ,SOAPaligner 的 比 对 也 可 细 分 为 针对 双 端 测序 数据 
的 比 对 以 及 针对 单 端 测序 数据 的 比 对 两 种 形式 。 

通过 上 述 介绍 , 比 对 软件 SOAPaligner 的 瓶颈 在 于 第 二 个 步骤 , 即 比 对 环节 。 同 时 该 
步骤 具有 很 好 的 可 并 行 性 : 只 需 将 序列 文件 做 简单 的 数据 划分 ,然后 在 多 台 机 器 上 同时 进 
行 序列 比 对 即 可 实现 并 行 化 。 本 节 案 例 主要 针对 该 步骤 实现 比 对 软件 SOAPaligner 的 并 
行 化 。 


10.2.2 并 行程 序 设计 


要 实现 比 对 软件 SOAPaligner 在 Hadoop 平台 上 的 并 行 化 ,首先 要 解决 的 问题 就 是 海 
量 序列 数据 的 存储 和 读 取 的 问题 。 对 于 该 问题 ,本 节 案 例 将 所 有 比 对 过 程 涉 及 的 输入 文件 、 
索引 文件 和 比 对 结果 都 存储 在 Hadoop 平台 自 带 的 HDFS 中 。HDFS 以 数据 块 (block) 作 
为 最 基本 的 存储 单元 ,在 最 新 的 Hadoop 版 本 中 ,数据 块 大 小 的 默认 值 为 128MB, 开 发 者 也 
可 以 根据 自身 的 需求 对 该 值 进行 修改 。 此 外 , HDFS 还 采用 完 余 备份 机 制 来 保护 数据 的 安 
全 性 。 每 个 数据 块 默认 在 集群 中 存储 三 份 。 

在 解决 数据 存储 的 问题 之 后 ,实现 并 行 化 的 主要 工作 在 于 寻找 图 10-2 中 所 示 的 Map 
函数 和 Reduce 函数 ,Map 函数 的 设置 较为 简单 ,因为 不 需要 进行 真正 的 操作 ,可 以 直接 取 
bash 命令 cat 即 可 ,Reduce 函数 也 应 该 设置 为 SOAPaligner 可 执行 文件 的 相关 命令 。 在 设 
置 好 Map 函数 和 Reduce 函数 之 后 ,图 10-2 所 示 的 数据 流转 化 为 如 图 10-3 所 示 的 具体 


1 
dp d : 
i| input || map | interm. | reduce | 7 | output |! 
一 | - - 1 1 
|| reader (stream) | data | (stream) writer |i 
1 
SUEDE DIE S[.d6  Hadoop j 
stdin stdout stdin stdout 
cat SOAPaligner 


10-3 并行 化 SOAPaligner 数据 流 


但 除了 找到 Map 函数 和 Reduce 函数 之 外 ,也 需要 对 原 有 的 SOAPaligner 程序 处 理 输 
入 文件 的 函数 做 出 修改 。 关 于 这 一 点 可 以 用 设计 模式 中 的 适配器 模式 来 解释 : 原 有 的 
SOAPaligner 程序 针对 序列 文件 进行 处 理 ,其 输入 文件 处 理 函 数 必然 是 面 对 序 列 文件 进行 
处 理 , 但 现在 SOAPaligner 程序 的 数据 来 源 于 标准 输入 (stdin) ,因此 必须 针对 这 一 情况 进 
3388 We ,修改 原 有 的 输入 文件 处 理 函 数 ,增加 对 来 自 标准 输入 (stdin) 的 数据 的 处 理 模块 , 完 
成 适 配 工作 。 同 时 ,为 了 处 理 FASTQ 格式 的 输入 文件 ,本 节 案 例 在 Hadoop Streaming 中 
定义 了 自己 的 输入 格式 *FqText”, 通 过 -inputformat 选项 选择 。 
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最 后 ,只 需要 设置 好 Hadoop Streaming 的 命令 选项 ,就 完成 了 SOAPaligner 并 行 化 的 
工作 。 


10.3 实现 方法 


10.3.1 自 定义 Hadoop Streaming Inputformat 


Hadoop Streaming 使 用 选项 -inputformat 和 -outputformat 来 设置 输入 输出 文件 的 处 
理 方式 ,这 两 个 选项 后 面 的 参数 都 为 Java 类 。 其 中 用 于 处 理 输入 格式 的 类 要 能 返回 Text 
类 型 的 key/value 对 。 如 果 不 指定 输入 格式 , 则 默认 会 使 用 TextInputFormat。 因 为 
TextInputFormat 得 到 的 key 值 是 LongWritable 类 型 的 (其 实 key 值 并 不 是 输入 文件 中 的 
内 容 , 而 是 value 偏 移 量 ) ,所 以 key 会 被 丢弃 ,只 把 value 用 管道 方式 发 给 mapper。 用 户 提 
供 的 定义 输出 格式 的 类 需要 能 够 处 理 Text 类 型 的 key/value 对 。 如 果 不 指定 输出 格式 , 则 
默认 会 使 用 TextOutputFormat 类 。 

在 本 节 案 例 中 ,SOAPaligner 程序 的 输入 文件 为 FASTQ 格式 的 序列 。 针 对 FASTQ 
格式 ,本 节 案 例 定义 了 自己 的 输入 格式 *FqText”, 实 现 Map 的 输入 < key, value >, key 为 序 
列 ID, value 为 完整 的 FASTQ 格式 序列 。 在 GZFastqReader 类 (GZFastqReader. java) P. 
通过 实现 RecordReader 接口 的 next 方 法 ,针对 FASTQ 格式 四 行 ,每 一 行 都 具有 不 同 的 意 
义 , 分 别 对 每 一 行进 行 处 理 。 我 们 实现 了 getFirstFastqLine 方法 用 于 识别 FASTQ 格式 序 
列 的 第 一 行 。 在 next 方法 中 ,我 们 从 序列 的 第 一 行 提 取出 序列 ID, 作 为 Map 的 输入 的 
keys 将 序列 四 行 拼接 成 一 个 字符 串 ,作为 Map 的 输入 的 value。 上 有 具体 实现 代码 如 下 : 


public void getFirstFastqLine() throws IOException { 
Text tmpline - new Text(); 
int size; 
while((size = in.readLine(tmpline, maxLineLength, 
Math.max((int)Math.min(Integer.MAX VALUE, end- pos), maxLineLength))) != 0) { 
start += size; 
if(tmpline. toString().startsWith("@")) { 
firstLine = tmpline. toString(); 
break; 


} 
} 
@override 
public boolean next(Text key, Text value) throws IOException { 
if (key == null) { 
key = new Text(); 
} 
if (value == null) { 
value = new Text(); 
) 
int newSize - 0; 
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boolean iswrongFq = false; 
while (pos « end) ( 
Text tmp - new Text(); 
String[] st = new String[4]; 
int startIndex = 0; 
if(firstLine != "") ( 
st[0] = firstLine; 
startIndex - 1; 
firstLine - ""; 
) 


for(int i = startIndex; i< 4; i++) ( 


newSize - in.readLine(tmp, maxLineLength, Math. max((int)Math. min(Integer. MAX - 


VALUE, end- pos), maxLineLength)); 


if (newSize == 0) { MBAR 
iswrongFq = true; 
break; 

) 


pos += newSize; 
st[i] = tmp.toString(); 
) 
if('iswrongFq) { 
int index = st[0].lastIndexOf("/"); 
if(index <0) { 
System. err. println(st[0]); 
} 
String tempkey = st[0].substring(0, index). trim(); 
if(sampleID. equals("+")) { 
key. set (tempkey) ; 


value. set(st[0] + "\t"+ st[1] + "Nt" +st[2] + "Nt" + st[3]); 


} else { 
key. set(tempkey) ; 
value.set(st[0] + "\t" + st[1] + "At" + sampleID + 
} 


} else { 


“Myst as yal (Ip) 


LOG. warn("wrong fastq reads:blank line among fq file or end of file!"); 


} 
break; 
} 
if (newSize == 0 || iswrongFa) { 
key = null; 
value = null; 
return false; 
} else { 
return true; 


] 


在 实现 了 GZFastqReader 类 之 后 ,我 们 在 FqText 2$ CFqText. java) P 


重 写 FileInputFormat 


类 的 getRecordReader 方法 ,创建 GZFastqReader 的 实例 ,FqText 类 代码 如 下 。 至 此 我 们 
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定义 了 专用 于 处 理 FASTQ 序列 的 输入 格式 ,之 后 只 需要 将 GZFastqReader 类 和 FqText 
类 编译 并 添加 到 Hadoop Streaming 的 jar 包 中 ,就 可 以 通过 选项 -inputformat FqText” Æ 
使 用 FqText。 


public class FqText extends FileInputFormat < Text, Text» { 
protected boolean isSplitable(JobContext context, Path file) 
{ 
CompressionCodec codec = new 
CompressionCodecFactory(context. getConfiguration()).getCodec(file); 
return codec == null; 
} 
@override 
public org. apache. hadoop. mapred. RecordReader < Text, Text > getRecordReader( 
org. apache. hadoop. mapred. InputSplit genericSplit, JobConf job, 
Reporter reporter) throws IOException { 
reporter. setStatus(genericSplit.toString()); 
String delimiter = job.get("textinputformat. record. delimiter") ; 
byte[] recordDelimiterBytes - null; 
if (null != delimiter) 
recordDelimiterBytes - delimiter.getBytes(); 
return new GZFastqReader(job, (FileSplit) genericSplit, recordDelimiterBytes); 


10.3.2 修改 SOAPaligner 程序 的 输入 文件 函数 


原 有 的 SOAPaligner 程序 的 输入 文件 为 FASTQ 格式 的 序列 ,本 节 案 例 中 
SOAPaligner 程序 作为 Reducer, 其 数据 来 源 于 标准 输入 (stdin) 。 为 此 我 们 对 SOAPaligner 
程序 的 输入 文件 函数 进行 了 修改 ,将 原 有 的 从 FASTQ 文件 读 取 序 列 的 fastq 函数 (SeqIO. c) 
替换 为 从 标准 输入 (Cstdin) 接 收 FASTQ 序列 的 fastq_hadoop 函数 (SeqIO. c). {E fastq_ 
hadoop 函数 中 ,我 们 使 用 getchar 函数 ,逐个 字符 接收 FASTQ 序列 ,并 对 序列 格式 进行 检 
验 , 如 果 序 列 格式 异常 则 报错 退出 。fastq_hadoop 函数 代码 如 下 : 


int fastq hadoop(seq t * seq, const int CONV) { 

int l, max, ns; 

char c; 

char *p; 

l= ns = 0; 

max = seq-> max; 

while ((c = getchar()) (= t"); 

if (c == EOF ) return - 1; 

1= 0; 

p= seq—> nane; 

if(c = getchar() == '@') // 检 查 格式 

{ 

while ((c = getchar()) != '\t'&&c!= ''&&c!= '\n'&&c!= ‘\r'&& 1++< MAX NAME LEN) 

*ptt- c; 
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*p = NO'; 
} 
else 
{ 
fprintf(stderr, "\nFile Error: unexpected fq start\n") ; 
exit(EXIT_FAILURE) ; 
} 
while (c = '\t') c = getchar(); 
if (c== EOF) ( 
fprintf(stderr, "\nFile Error: unexpected eof\n"); 
exit(EXIT_FAILURE) ; 
} 
1= 0; 
while ((c = getchar()) != '*'&&c !- EOF) { 
if (cis Ae) 
if (1>= max) { 
max += QUERY_LEN; 
seq-> seq = (char * )realloc(seq- » seq, sizeof(char) * max); 
seq->re = (char * )realloc(seq-» rc, sizeof(char) * max); 
seq->qual = (char * )realloc(seq- qual, sizeof(char) * max); 
} 
if (ambiguityCount[charMap[c]] == 1){ 
seq-»seg[1] = charMap[c]; 
seq->rc[1++] = complementMap[c]; 
Jeise( 
seq->seq[1] = charMap[ 'G']; 
seq-»rc[1**] = complementMap[ 'G']; 
ns++; 
} 
} 
} 
seq->1 = 1; 


while ((c= getchar()) != EOF &&c != '\t'); 
if (c == EOF) { 
fprintf(stderr, "\nFile Error: unexpected gzeof\n") ; 


return 0; 
} 
1-70; 
p = seq 一 > qual; 


while ((c= getchar()) != "^n'&&c != EOF) ( 

if (1> max) { 
max += QUERY LEN; 
seq-»qual = (char * )realloc(seq—> qual, sizeof(char) * max); 
p= seq—>qual; pt-1; 

} 

*ptt- c; 

TFt; 
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*p \0% 

if (1 != seq->1) ( 
fprintf(stderr, "Length Error: incompitable seq and qual length\n") ; 
fprintf(stderr, " % s\n", seq—> nane); 
return 0; 

ji 

seq 一 > max = max; 

seq 一 > ns = ns; 

return seq->1; 


10.4 环境 建立 和 实验 数据 说 明 


10.4.1 案例 环境 


本 节 案 例 的 实验 在 华 大 基因 Hadoop 集群 上 测试 完成 ,该 集群 由 17 个 计算 节点 构成 ， 
每 个 计算 节点 的 基本 配置 情况 ,如 表 10-3 所 示 。 
X 10-3 Hadoop 集群 计算 节点 物理 配置 及 软件 版 本 


内 容 具体 配置 内 S 具体 配置 
CPU Intel(R) Xeon(R) E5645 OS RedHat Enterprise Linux Server 
Cores 12 Jave Version 1.8 
Clock Frequency 2. 40GHz Hadoop Version | 2. 6.3 
Memory 48GB 


10.4.2 实验 数据 


测试 数据 来 源 于 华 大 基因 ,数据 的 具体 情况 如 下 : 一 个 样本 的 宏基 因 组 序列 数据 由 两 
个 FASTQ 文件 组 成 ,文件 大 小 总 共 为 2. 66G x 2=5. 32GB, 同 时 宏基 因 组 序列 比 对 的 参考 
基因 组 较 大 ,为 15GB 左右 。 样 本 数目 总 量 为 1000 以 上 。 本 节 案 例 使 用 FASTQ 格式 数据 
示例 如 下 : 


(&)FCH7HC2ADXY :2 :1101:2657:1999 # CTCTCGAC/1 
NGTAAGCATCAACTATAAGCATTAAAGCCATGCCTGTGGACTCCTCAAAATGGAAAACTACATCTTTTGTTGGTAGAATTAGCTGCTGGT 
* 


BPY'cacegfggfhhhfffc cdghhhhagfhhhhhhhffffhhfgffddeghb eaecdcggfhhhhhbghhcdeedgebceeeedbdb 


正 是 由 于 宏基 因 组 参考 基因 组 较 大 ,为 人 参考 基因 组 (3GB) 的 5 PF SE SC BL RIA HY 
SOAPaligner 程序 遭遇 内 存 不 足 ( 当 参考 基因 组 为 30G 时 ) 和 运行 时 间 过 长 等 问题 ,因此 才 
需要 对 SOAPaligner 进行 并 行 优化 。 
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10.5 结果 展示 


10.5.1 测试 方法 


为 了 简化 测试 过 程 ,我 们 只 选取 单个 宏基 因 组 测序 样本 的 数据 作为 测试 基准 。 首 先 ,在 
Hadoop 集群 某 台 机 器 上 面 完 成 了 单机 版 本 SOAPaligner 的 测试 。 考 虑 到 单机 版 本 
SOAPaligner 有 针对 多 核 机 器 进行 性 能 优化 ,测试 时 将 线程 数目 参数 设置 为 机 器 核 数 12。 
随后 ,在 集群 上 完成 SOAPaligner 利用 Hadoop Streaming 并 行 化 之 后 的 测试 。 

在 测试 过 程 中 ,我 们 首先 使 用 2bwt-builder 程序 为 参考 基因 组 建立 索引 文件 。 这 一 步 
只 需 执行 一 次 ,生成 的 索引 文件 可 重复 使 用 。 索 引 建立 命令 如 下 : 


< ExecutablePath >/2bwt — builder < FastaPath/YourFasta > 
eg: ./2bwt - builder ~/test/ref. fa 


使 用 2bwt-builder 程序 将 生成 13 个 索引 文件 ,文件 名 为 FASTA ,文件 名 加 “. index”. 
如 ref. fa. index, 文 件 后 级 包括 *.amb、x.ann、*.bwt、 * . fmv, *. hot, *. lkt, * . pac, 
* , rev, bwt, * . rev. fmv, * , rev. lkt, * . rev. pac, * . sa 和 =* . sai, 


生成 索引 文件 后 ,我们 使 用 -put 选项 将 测试 数据 导入 HDFS 文件 系统 ,命令 如 下 : 


hadoop fs 一 put < FastqPath > < HDFSFastqPath > 
eg: hadoop fs - put ~/test/test_PE1. fastq hadoopdata/input 


之 后 我 们 就 可 以 使 用 设置 好 的 Hadoop Streaming 命令 进行 测试 ,命令 如 下 。 其 中 
mapred. map. tasks 和 mapred. reduce. tasks 分 别 用 于 设置 Mapper 和 Reducer 的 个 数 ; 


Hadoop jar < HadoopStreamingPath > — D mapred. map. tasks = < MapperNum > 

— D mapred. reduce. tasks = < ReducerNum> - input < HDFSFastqPath > — inputformat FqText 

— output < HDFSOutputPath» - mapper "cat" — reducer "< SOAPPath» - D < IndexPath>" 

一 file < SOAPPath> 

eg: Hadoop jar 一 /GaeaSoapStreaming/Streaming/bin/soapstreaming. jar 

— D mapred. map. tasks = 4 

— D mapred. reduce. tasks = 4 — input hadoopdata/input/test PEl.fastq - inputformat FqText 
— output hadoopdata/ouput — mapper "cat" 

— reducer "—/GaeaSoapStreaming/soap2.21 streaming/soap - D ~/test/ref. fa. index" 

— file — /GaeaSoapStreaming/soap2.21 streaming/soap 


完成 测试 后 ,测试 结果 存储 在 < HDFSOutputPath >, 我 们 可 以 使 用 -get 选项 从 HDFS 
文件 系统 中 导出 测试 结果 ,命令 如 下 : 


hadoop fs — get < HDFSOutputPath > < OutputPath> 
eg: hadoop fs - put hadoopdata/ouput/ part- 00000 ~/ 
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10.5.2 测试 结果 和 分 析 


最 终 , 单 机 版 本 SOAPaligner 完成 单个 样本 比 对 运行 时 间 为 243min。Hadoop 
Streaming 并 行 化 的 SOAPaligner 具体 运行 时 间 为 17min。 结 合 之 前 的 运行 时 间 ,给 出 这 两 
种 情况 下 运行 时 间 的 对 比 图 ,如 图 10-4 所 示 。 


300 


243 


运行 时 间 /min 
3 


17 


1 2 
单机 版 本 和 并 行 版 本 运行 情况 
10-4 两 种 版 本 SOAPaligner 运行 时 间 


由 上 面 的 测试 数据 可 以 计算 出 加 速 比 为 14. 3 ,而 理论 加 速 比 为 17。 正 是 由 于 使 用 了 标 
准 输入 /输出 的 原因 ,从 而 相 比 原 有 程序 引入 了 额外 的 开销 ,导致 并 行 化 SOAPaligner 不 能 
达到 理论 加 速 比 。 这 也 是 Hadoop Streaming 工具 包 的 缺点 之 一 。 

综 上 所 述 , 本 节 案 例 利 用 Hadoop Streaming 工具 包 对 比 对 软件 进行 了 并 行 优化 。 就 比 
对 时 间 而 言 , 取 得 了 14. 3 倍加 速 比 。 此 外 ,Hadoop Streaming 工具 包 人 允许 开发 者 对 可 执行 
软件 直接 在 Hadoop 平台 上 实现 并 行 化 ,只 需要 适当 修改 某 些 程序 接口 ,避免 了 大 量 的 代码 
重 构 工 作 ,是 一 种 简单 可 行 且 高 效 的 将 非 Java 语言 实现 的 程序 并 行 化 的 方法 。 但 同时 也 会 
引入 一 些 额 外 的 开销 。 序 列 对 比 本 身 具 有 很 好 的 可 并 行 性 ,可 以 很 好 地 利用 Hadoop 集群 
的 大 量 资源 对 其 进行 并 行 优化 。 在 序列 比 对 算法 日 趋 成 熟 的 情况 下 ,该 方法 不 失 为 提高 序 
列 比 对 效率 的 新 途径 。 


习题 


1. 什么 是 宏基 因 组 学 ? 

2. 序列 比 对 软件 可 以 分 为 哪 几 类 ? 

3. 请 简 述 Hadoop Streaming 的 工作 原理 。Hadoop Streaming 设置 输入 输出 文件 处 理 
方式 的 命令 选项 是 什么 ? 


ws LD a 


基于 细胞 反应 大 数据 
的 生物 效应 评估 计算 


本 节 案 例 设计 开发 了 一 套 基于 细胞 反应 大 数据 的 生物 效应 评估 软件 。 它 的 首要 目的 
是 基于 大 量 病 原 微生物 感染 刺激 下 人 体 细胞 反应 的 基因 表达 谱 数 据 , 通 过 优化 具有 显著 
性 生物 学 意义 的 统计 指标 的 计算 过 程 ,结合 MPI 和 OpenMP 等 传统 并 行 加 速 手段 ,在 极 
短 的 时 间 内 完成 细胞 反应 大 数据 的 分 析 处 理 。 从 而 辅助 进行 药物 筛选 ,快速 确定 相关 的 
检测 标志 物 和 治疗 靶 标 , 极 大 缩短 防治 手段 的 研发 过 程 ,以 快速 有 效 地 应 对 可 能 的 生物 
威胁 。 


11.1 相关 背景 介绍 与 基本 需 3 


11.1.1 相关 背景 


随 着 生物 技术 的 飞速 发 展 , 特 别 是 以 新 一 代 测 序 技术 为 代表 的 高 通 量 分 析 技术 的 发 展 ， 
生命 科学 的 年 数据 产 出 能 力 已 经 进入 了 PB 级 时 代 , 国 际 三 大 生物 信息 数据 中 心 存 储 的 数 
据 已 达到 20PB。 随 着 现代 科技 的 进步 与 发 展 , 生 物 医药 领域 的 实验 手段 和 研究 方法 均 发 生 
了 巨大 的 变革 ,呈现 出 “大 数据 ?的 趋势 .涉及 海量 的 组 学 数据 ,文献 数据 ,临床 数据 等 。 仅 公 
开 的 数据 库 , 如 GEO, ArrayExpress 等 ,就 包含 了 大 量 病原 微生物 感染 刺激 下 人 体 细 胞 反 
应 的 基因 表达 谱 数据 。2010 年 美国 国立 卫生 研究 院 (NIH) 启 动 了 “基于 网 络 的 细胞 反应 印 
记 整 合 图 书馆 CLINCS) ?项目 , 由 麻 省 理工 学 院 和 哈佛 大 学 共同 组 建 的 BROAD 研究 所 承 
担 ,其 目标 是 系统 检测 15000 种 化 学 分 子 对 15 种 典型 人 体 细胞 刺激 后 的 基因 表达 情况 。 目 
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前 该 计划 第 一 期 已 获得 了 15 种 典型 细胞 中 3000 余 个 基因 沉默 和 5000 余 种 化 学 小 分 子 刺 
激 下 的 130 余 万 个 全 基因 组 表达 谱 。 

在 生物 技术 的 推动 下 ,生物 防御 形式 迅速 变化 ,潜在 的 生物 制剂 种 类 不 断 增 加 。 因 此 ， 
人 类 必须 面向 未 来 ,加 速 发 展 下 一 代 生 物 效应 监测 手段 ,提高 快速 反应 能 力 。 生 物 效应 评估 
是 通过 测定 和 分 析 生物 制剂 刺激 各 种 人 体 细胞 后 的 数字 化 转录 组 反应 ,快速 确定 相关 的 检 
测 标志 物 和 治疗 靶 标 , 极 大 缩短 防治 手段 的 研发 过 程 ,以 快速 有 效 地 应 对 可 能 的 生物 威胁 。 
从 技术 路 线 上 看 ,采用 了 典型 的 大 数据 策略 , 即 首先 是 系统 地 积累 各 种 潜在 生物 制剂 作用 下 
的 细胞 反应 大 数据 ,以 此 为 基础 ,通过 大 范围 数据 比较 推测 突 发 生物 效应 模式 ,在 数据 的 推 
动 下 实现 技术 跨越 。 该 技术 为 下 一 步 面向 以 大 数据 分 析 技 术 为 基础 的 生物 效应 快速 监测 技 
术 体系 奠定 了 研究 基础 。 


11.1.2 基本 需求 


本 章 所 讲 案例 对 于 转录 组 数据 的 比较 指标 ,采用 了 GSEA (Gene Set Enrichment 
Analysis, 基 因 探 针 富 集 分 析 ) 算 法 中 提出 的 富 集 积分 , 它 是 一 种 基于 排序 的 Kolmogorov- 
Smirnov 统计 量 计 算 方 法 ,并 且 会 采用 显著 性 分 析 , 多 重 假设 检验 的 方法 对 得 到 的 富 集 积分 
进行 统计 分 析 ,衡量 结果 的 可 靠 性 。 目 前 GSEA 在 表达 谱 分 析 中 得 到 广泛 应 用 , 随 着 RNA- 
seq 和 低 成 本 转录 组 L1000 技术 的 流行 ,出 现 越 来 越 多 的 大 规模 转录 组 数据 ,所 以 对 于 这 样 
大 规模 的 数据 分 析 研 究 , 往 往 需 要 快速 的 GSEA 计算 过 程 以 支持 数据 挖掘 和 机 器 学 习 应 
用 。 这 样 的 应 用 是 非常 具有 前 景 和 意义 的 。 因 为 我 们 通过 实验 得 到 的 海量 转录 组 基因 谱 表 
达 数 据 往 往 是 进行 了 变量 控制 的 ,比如 某 一 种 表 型 基因 谱 用 了 哪 种 干扰 素 、 作 用 的 是 哪 种 细 
胞 系 、 作 用 时 间 有 多 长 ,药物 浓度 有 多 大 等 ,这 些 都 有 详细 的 划分 和 记录 。 这 个 时 候 如 果 来 
了 一 个 病人 ,我 们 可 以 通过 实验 得 到 他 的 表达 谱 数 据 , 然 后 与 这 些 海量 表达 谱 数据 进行 基因 
谱 的 一 一 比 对 ,实质 就 是 计算 各 自 的 富 集 积 分 (enrichment score, ES), ES 特别 大 说 明 两 者 
存在 极 大 的 相关 性 ,而 相应 的 处 理 条 件 可 能 是 病症 的 诱导 因素 ; 相反 ,如 果 ES 特别 小 说 明 
两 者 存在 极 大 的 反 相 关 性 ,而 相应 的 处 理 条 件 可 能 是 病症 的 治疗 手段 。 于 是 我 们 就 得 到 一 
种 利用 大 数据 分 析 手 段 快速 找到 治 病 药剂 的 方法 。 


11.2 ”设计 方案 


11.2.1 基本 思路 


一 句 话 描述 就 是 : 综合 应 用 并 行 编程 技术 ,提升 大 范围 基因 表达 谱 数 据 特征 比 对 的 
具体 而 言 , 本 节 所 讲 案例 就 是 基于 典型 的 人 体 细胞 刺激 后 的 转录 组 基因 表达 谱 数 据 集 
(LINCS) ,实现 表达 谱 数 据 集 的 两 两 比 对 并 用 其 结果 进行 聚 类 分 析 。 在 保证 计算 结果 正确 
的 情况 下 ,综合 使 用 MPI、OpenMP 等 并 行 编程 手段 ,实现 处 理 效率 的 提升 。 生 物 大 数据 的 
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基石 是 并 行 计算 ,所 以 该 工作 对 于 LINCS 以 及 相关 项 目 很 有 意义 。 由 此 可 见 ,本 实验 主要 
由 两 个 核心 步骤 组 成 : 

1) 基因 谱 两 两 比 对 

其 实质 就 是 计算 一 个 富 集 积分 (ES，Enrichment Score) 和 矩阵 。 所 谓 的 富 集 积 分 可 以 看 
成 是 衡量 两 个 转录 组 基因 谱 之 间 相 似 程度 的 指标 , 它 源 自 近年 来 处 理 转录 组 数据 十 分 著名 
ff] GSEA (Gene Set Enrichment Analysis, 基 因 探 针 富 集 分 析 ) 算 法 ,算法 细节 和 在 本 案例 中 
的 具体 应 用 方法 会 在 后 面部 分 进行 介绍 。 

2) 聚 类 分 析 

这 是 数据 分 析 以 及 机 器 学 习 领 域 比较 经 典 和 成 熟 的 一 类 算法 , 它 有 众多 具体 的 实 
现 。 这 一 部 分 的 工作 主要 是 在 上 一 部 分 得 到 ES 矩阵 的 基础 上 实现 一 种 基于 距离 的 聚 类 
算法 KMedoids, 并 且 对 其 进行 优化 ,以 及 综合 采用 MPI、OpenMP 技术 完成 算法 的 并 行 化 
工作 


11.2.2 设计 框架 


之 前 也 提 到 了 ES 可 以 看 作 是 一 种 基因 谱 之 间 相 似 度 的 衡量 指标 ,于 是 乎 ,本 案例 的 实 
质 就 是 先 用 GSEA 算法 计算 基因 谱 之 间 的 相似 度 矩 阵 , 再 利用 KMedoids 算法 基于 相似 度 
矩阵 进行 基因 谱 聚 类 。 如 此 一 来 ,本 案例 两 个 方面 的 工作 便 有 机 结合 形成 一 个 生物 信息 领 
域 较为 典型 的 数据 挖掘 或 机 器 学 习 应 用 。 

总 而 言 之 ,该 案例 主要 分 为 以 下 3 个 核心 阶段 。 

1) 数据 预 处 理 

该 阶段 会 利用 开源 工具 1ktools 对 LINCS 的 原始 基因 谱 数 据 进行 预 处 理 , 得 到 案例 核 
心 程序 能 够 使 用 的 数据 格式 并 写 出 文件 。 注 意 : 生物 信息 大 数据 计算 领域 经 常会 涉及 各 方 
面 工 作 的 高 效 整 合 以 形成 一 条 完善 的 产业 流水 线 。 我 们 没有 必要 重复 地 造 轮子 ,一 条 路 从 
头 走 到 尾 。 对 于 文件 结构 较为 复杂 的 LINCS 表达 谱 数 据 集 ,1ktools 已 经 为 我 们 提供 了 免 
费 高 效 的 解析 方案 ,所 以 直接 使 用 即 可 。 

2) GSEA 算法 的 核心 实现 

该 阶段 工作 就 是 利用 预 处 理 后 的 数据 完成 富 集 积 分 矩阵 的 计算 ,采用 MPI 二 OpenMP 
二 级 并 行 的 策略 负载 均衡 地 划分 数据 ,充分 利用 资源 完成 计算 并 按 进程 写 出 结果 文件 。 其 
间 会 采用 预 排 序 、 建 索引 、 优 化 单 核 计算 过 程 等 典型 手段 进行 提 效 。 

3) 并 行 聚 类 

该 阶段 以 比 对 结果 为 输入 实现 KMedoids 聚 类 算法 及 其 优化 ,并 对 每 次 迭代 过 程 同 样 
利用 MPI 十 OpenMP 二 级 并 行 的 策略 进行 并 行 化 加 速 ,最 后 将 聚 类 结果 写 出 到 文件 ,每 个 
表达 谱 会 归属 于 某 一 聚 类 。 注 意 : 最 后 两 个 核心 阶段 会 用 到 的 通用 计算 方法 分 别 被 封装 在 
IO, Tools 和 GSEA 三 个 工具 模块 之 中 。 

图 11-1 给 出 该 案例 具体 的 模块 框图 。 
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Se 
原始 基因 谱 文件 1ktools 
.ctx 


图 11-1 案例 总 体 框 架 图 


11.3. 环境 建立 和 实验 数据 说 明 


11.3.1 案例 环境 


1. 软件 环境 

1) gcc 4. 4.6, 相 关 编 译 命令 都 安装 在 /usr/bin 目录 下 。 

2) 自主 实现 基于 Intel 编译 器 的 mpi, 安 装 在 /usr/loca/mpi3 F. 
2. 硬件 环境 

天 河 二 号 (CPU 与 MIC 异 构 融 合 结构 ) 

1) 计算 节点 规格 


E 指 d 
E5-2692(lvy Bridge) 12 核 
2X CPU 
i 主 频 2.2GHz 
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续 表 
配 置 指 标 
sic Intel MIC 31s1P 
PCIe 2.0 
内 存 64G 
性 能 3432GFlops 
2) 整体 规格 
配 E 指 标 
处 理 器 32000 个 Ivy Bridge 处 理 器 和 48000 个 Xeon Phi 
内 存 总 容量 1PB 
互联 通信 自主 设计 高 速 互 联 
输入 输出 总 容量 12.4PB 
操作 系统 64 位 麒麟 Linux 


注意 : 计算 环境 并 不 强制 要 求 使 用 天 河 二 号 ,只 要 是 多 节点 互通 的 集群 环境 并 配置 了 
mpi 和 支持 OpenMP 的 gcc 编译 器 ,都 是 可 以 完成 实验 的 。 只 是 得 到 的 结果 数据 可 能 就 和 
后 面 性 能 分 析 结 果 不 再 相符 了 。 有 效 的 gcc 编译 器 一 般 都 是 操作 系统 自 带 的 ,mpi 的 配置 
网 上 有 大 量 资料 ,简单 易学 ,不 再 累 述 。 


11.3.2 实验 数据 


实验 的 原始 表达 谱 数 据 来 自 LINCS 项 目 , 现 已 提供 在 GEO 官网 ,可 以 通过 以 下 网 址 进 
行 下 载 : https://www. ncbi. nlm. nih. gov/geo/query/acc. cgi? acc=GSE70138。 

它 有 在 各 种 实验 条 件 下 得 到 的 多 种 规模 的 表达 谱 数 据 , 一 般 是 以 . get 或 者 . gctx 为 后 
级 的 HDF5 文件 格式 。 因 为 案例 中 直接 采用 1ktools 开源 工具 进行 原始 数据 解析 ,我 们 不 
用 太 关 注 该 文件 本 身 的 复杂 结构 ,只 需 知 道 怎么 解析 出 我 们 需要 的 表达 谱 数 据 进 行使 用 
即 可 。 

另外 ,1ktools 的 GitHub 开源 网 址 为 : https://github. com/cmap/llktools 。 

该 项 目 现在 还 在 维护 之 中 ,提供 了 RR、Java、Matlab 和 Python 四 种 语言 的 解析 包 , 亦 可 
自行 下 载 。 我 们 的 案例 主要 使 用 的 是 Matlab 版 本 。 解析 时 主要 用 到 parse gctx. m 文件 ， 
它 会 自行 关联 其 他 lib 包 下 用 到 的 m 文件 。 源 程序 的 matlab_for_parse 目录 下 提供 了 相应 
的 解析 示例 代码 PreGSEA. m。 可 以 看 到 程序 中 主要 解析 出 了 表达 谱 的 三 类 数据 ， 

CD mat: 基因 谱 集 的 表 型 矩阵 ; 

(2) rid: 每 个 基因 的 标识 ; 

(3) cid: 每 个 表达 谱 的 标识 。 

解析 时 ,会 先 将 每 个 基因 从 1 开始 进行 编号 , 写 出 的 表达 谱 数 据 集 文件 每 一 行 就 是 一 个 
基因 谱 的 编号 序列 ,同时 也 会 分 别 按 序 写 出 每 个 编号 对 应 的 基因 标识 以 及 基因 谱 的 标识 , 它 
们 各 自 到 一 个 单独 的 文件 ,方便 查找 。 

以 上 bash 脚本 调用 PreGSEA. m 完成 相应 解析 工作 : 
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matlab — nodesktop — nosplash — nojvm -r "file input = '../data/modzs n272x978.gctx'; file 
name = '../data/data for test.txt'; file name cid- '../data/data for test cid.txt'; file name 
rid- '../data/data for test rid.txt'; PreGSEA; quit;" 


案例 data 文件 夹 中 提供 了 一 些 测试 的 示例 数据 ,简单 说 明 如 下 : 

(1) modzs n272x978. gctx: 小 规模 基因 谱 的 源 数 据 文件 , 待 1ktools 工具 预 处 理 ; 
(2) data for test. txt; 解析 后 的 基因 谱 数 据 文件 ; 

(3) data for test rid. txt: 解析 后 的 基因 标识 对 应 文件 ; 

(4) data for test cid. txt: 解析 后 的 顺序 基因 谱 标 识 文件 ; 

(5) ES_Matrix_test_x .txt: 各 进程 分 布 计算 出 的 富 集 积分 矩阵 文件 ; 

(6) Cluster result test. txt; 聚 类 结果 标记 向 量 文件 。 


1 


一 


.4 实现 方法 


11.4.1 算法 分 析 


1. GSEA 算法 

GSEA 主要 用 于 分 析 两 个 不 同 表 形 样本 集 之 间 的 表达 差异 ,其 基本 思想 是 检验 所 定义 
基因 集 (Gene Set) S 中 的 基因 在 整个 微 阵列 实验 中 所 测 得 的 已 排序 的 所 有 基因 列表 (Gene 
List)L 中 是 均匀 分 布 还 是 集中 于 顶端 或 底部 。 

GSEA 分 为 3 个 主要 步骤 : 

D 富 集 积分 的 计算 : 使 用 Kolmogorov-Smirnov 统计 量 进行 富 集 积分 计算 ,可 反映 某 
个 基因 集 在 整个 排序 列表 的 顶部 或 底部 集中 出 现 的 程度 。ES 的 计算 是 通过 在 基因 列表 工 
中 顺序 步 移 (walking down) ,从 初始 值 ES(S) 开 始 , 当 步 移 中 遇 到 S 中 的 基因 时 , 则 增加 
ES(S) ,相反 则 减 小 ESCS)。 增 加 或 减 小 的 幅度 依赖 于 基因 与 表 型 间 的 相关 程度 。ES 就 是 
ES(S) 整 个 步 移 过 程 中 与 0 的 最 大 偏差 ,绝对 值 最 大 的 值 。 计 算 过 程 见 图 11-2( 摘 自 相 关 领 


域 文献 )。 
A Phenotype B Leading edge subset 
Classes Gene set S 
A B 
Gene set S | | ll | 
-一 -一 Correlation with Phenotype 
Zz 三 = 
a 
2 == 
3 Random Walk 
[o] —M— 
3 | rr 后 
兰 kef 
5 an- 
e Maximum deviation Gene List Rank 
|__| from zero provides the 


enrichment score ES(S) 


图 11-2 计算 ES 的 过 程 图 
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2) 估计 ES 的 显著 性 水 平 (Significance Level): ES 的 统计 学 显著 性 (名 义 性 P 值 ) 由 置 
换 检验 方法 来 估计 ,置换 检验 方法 依赖 于 表 型 。 这 涉及 置换 表 型 标签 ,以 及 为 每 个 置换 数据 
集 基 因 集 ES 重新 计算 统计 量 。 上 千 个 这 样 的 置换 为 ES 产生 一 个 零 分 布 ,并 且 相 对 该 分 布 
计算 出 检测 到 的 数据 的 经 验 性 名 义 P 值 。 相 关 信 息 用 于 第 3) 步 的 多 重 检 验 程 序 中 。 对 样 
本 进行 重 排列 (Permutation) ,并 重新 计算 重 排列 后 基因 集 S 的 富 集 积分 ES(NULL) ,然后 
计算 实验 中 得 到 的 ES 和 ESCNULL) 的 P 值 。 本 过 程 采用 的 是 对 样本 的 重 排列 ,因此 保留 
了 基因 间 的 相互 左右 因素 , 较 之 于 对 基因 的 重 排列 ,能够 更 为 真实 地 反映 其 生物 过 程 。 置 换 
方法 已 经 普遍 使 用 ,因为 它 通过 置换 分 类 标签 而 非 基因 ,保持 了 基因 相关 性 的 结构 ,可 提供 
更 具 生 物 学 意义 的 显著 性 评价 。 

D 调整 多 重 假设 检验 : 需要 评估 整个 基因 集 数据 库 , 通 过 调整 名 义 了 值 来 说 明 多 重 检 
验 。 包 括 创建 归 一 化 的 富 集 积分 NES, 通 过 对 每 个 基因 集 进 行 归 一 化 ,以 说 明 应 用 FDR 
(False Discovery Rate) 对 每 个 NES 进行 控制 前 的 数据 组 大 小 。 产 生 基 因 列 表 的 FDR, 通 
过 比较 尾部 误差 来 估计 ,该 误差 来 自 步骤 2) 中 的 数据 置换 引起 的 统计 量 零 分 布 。 

通过 上 面 的 描述 ,可 以 看 出 完善 的 GSEA 算法 是 非常 丰富 全 面 的 ,包含 大 量 的 统计 学 
分 析 手 段 。 但 本 次 实验 只 关心 第 一 步 富 集 积分 的 计算 过 程 ,后 面 两 步 的 统计 学 分 析 手 段 其 
实 都 是 为 了 衡量 ES 的 可 靠 性 ,这 里 暂时 不 做 要 求 。 

结合 图 11-2, 富 集 积分 的 计算 框架 总 结 如 下 : 

CD 根据 样本 数据 表达 相关 性 对 含有 N 个 基因 的 表达 谱 进 行 排序 得 到 有 序 的 基因 谱 
L= (an gud) ,使 得 序列 第 j 个 位 置 的 基因 表达 量 就 是 第 j 个 基因 gj; 的 表达 量 , 即 有 公式 
r(g;) —r; 成 立 。 

(2) 计算 基因 集 (基因 探 针 )S 在 序列 L 上 的 hit 向 量 和 miss 向 量 ,公式 如 式 (10-1) 
所 示 : 


Pas = 3) EU, where Ne= DD In I? 


KES R jes 
i<i 
; 1 
P mis (S.i) = > BE (10-1) 
4,65 (N— Ny) 


(3) ES 最 大 的 误差 值 为 当 Pi 一 Ps 等于零 时 。 当 随机 的 取 基 因 集 S,ES(S) 将 会 相 
对 的 非常 小 ,但 是 如 果 其 聚集 在 工 的 尾部 或 者 顶端 ,或 者 S 是 一 个 普通 的 分 布 ,将 会 有 一 个 
很 大 的 ES(S) 值 。 当 p= 二 0( 指 数 ) 的 时 候 ,ES(S) 将 会 减 变 为 标准 Kolmogorov-Smirnov 统 
计 分 布 ( 这 是 一 个 判别 两 个 不 知 分 布 的 总 体 是 否 有 同一 分 布 的 非 参 数 检验 )。 这 个 值 也 是 实 
验 中 所 用 。 

算法 的 形式 化 描述 如 上 ,实际 在 实现 时 ,前面 的 排序 工作 和 计算 Pi 、Pwis 不 用 多 说 , 照 
公式 来 就 行 。 至 于 找 最 大 误差 处 的 ES 值 ,一般 是 先 对 Pi 和 P 了 wis 两 个 向 量 进行 前 缀 求 和 ， 
求 和 的 过 程 中 再 对 当前 迭代 次 的 前 级 项 作 差 ,记录 最 大 的 差 值 项 , 当 遍 历 完整 个 序列 工时 
就 得 到 了 最 后 的 富 集 积分 ES 。 

算法 伪 代 码 如 下 : 
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Algorithm 1. Old Algorithm. 
calculate the Enrichment Score 


: Input; profile, geneset 

: Output, es 

: Variables: max, index, tmp, siglen, len 
: Containers; isgs, scorehit, scoremiss 


i 

2 

3 

4 

5, isgs--initial zero vector 
6; siglen--length of geneset 
7; len--length of profile 

8; for gene gl in profile do 


9: for gene g2 in geneset do 


10; if profile[gl1] is equal to geneset[ g2 ] then 
11; isgs[gl]--1i 

12, endif 

13, end for 

14;end for 


15: scorehit[0]-- isgs[0] 

16; scoreniss[0]--1- isgs[0] 

17; max--absolute value of scorehit[0]/siglen - scoremiss[0]/(len - siglen) 
18; index4-0 

19;for gene g in profile do 

20: scorehit[g]--isgs[g] * scorehit[g - 1] 

21: scoremiss[g]--(1- isgs[g]) + scoremiss[g - 1] 


22; tmp--absolute value of scorehit[g]/siglen - scoremiss[g] /(len - siglen) 
23, if tmp is bigger than max then 

24; max< tmp 

25: index<-g 

26: end if 

27:end for 


28; es-- scorehit[ index ]/ siglen — scoremiss[ index ]/( len - siglen) 


基于 求解 富 集 积分 的 算法 描述 过 程 ,我 们 可 以 清晰 地 分 析出 算法 各 部 分 的 时 间 复 杂 度 ， 
假设 序列 工 KEH n EARE S 的 长 度 为 m, 算 法 的 完成 主要 包含 以 下 三 个 步 又 的 工作 ， 
及 其 时 间 复 杂 度 分 析 如 下 : 

CD 对 原始 基因 谱 进行 表达 量 排序 : 毫 无 疑问 一 般 是 达到 O(nlogn)。 

© 计算 Pu 、Pwis 向 量 : 每 判断 一 个 表达 谱 基因 是 否 命中 就 要 扫描 整个 探 针 S, 故 而 时 
间 复 杂 度 为 O(mn) 。 

@ 求解 ES. 算法 描述 中 也 说 了 需要 对 @ 中 两 个 向 量 进行 遍历 计算 前 级 和 ,故而 时 间 

AREA O). 

注意 : 上 面 的 分 析 是 基于 比较 朴素 的 做 法 ,在 后 面 的 并 行 化 部 分 ,为 了 提高 效率 ,简化 
单 例 计算 开销 ,会 对 2) 和 3) 步 的 实现 进行 优化 。 值 得 注意 的 是 : 对 于 案例 这 种 在 大 规模 数 
据 集 上 运用 并 行 加 速 手 段 反复 进行 某 一 标准 例 程 的 生物 计算 应 用 ,将 该 标准 例 程 优化 到 极 
致 ,计算 性 能 将 会 得 到 显著 的 改善 ,这 也 是 我 们 工作 的 意义 之 一 。 

2. KMedoids 聚 类 算法 及 其 优化 

介绍 KMedois 就 不 得 不 提 KMeans, 这 是 聚 类 领域 非常 著名 和 经 典 的 一 种 算法 。 其 细 
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节 不 必 多 说 ,但 它 存在 明显 的 缺陷 ,其 中 之 一 就 是 “噪声 敏感 "这 个 问题 。 回 想 KMeans 寻找 
质点 的 过 程 : 它 是 对 某 类 簇 中 所 有 的 样本 点 维度 求 平均 值 , 即 获得 该 类 簇 质点 的 维度 。 当 
聚 类 的 样本 点 中 有 “噪声 ”( 离 群 点 ) 时 ,在 计算 类 簇 质点 的 过 程 中 会 受到 噪声 异常 维度 的 干 
扰 , 造 成 所 得 质点 和 实际 质点 位 置 偏差 过 大 ,从 而 使 类 簇 发 生 * 畸 变 ”。 

为 了 解决 该 问题 , KMedoids 提出 了 新 的 质点 选取 方式 ,而 不 是 简单 像 KMeans 算法 采 
用 均值 计算 法 。 在 KMedoids 算法 中 ,每 次 迭代 后 的 质点 都 是 从 聚 类 的 样本 点 中 选取 ,而 选 
取 的 标准 就 是 当 该 样本 点 成 为 新 的 质点 后 能 提高 类 艇 的 聚 类 质量 ,使 得 类 艇 更 紧凑 。 该 算 
法 使 用 绝对 误差 标准 来 定义 一 个 类 簇 的 紧 次 程度 。 而 我 们 的 实现 中 是 直接 选取 当前 类 簇 中 
与 其 他 元 素平 均 距离 最 近 的 点 作为 新 的 聚 类 中 心 。 

另 一 方面 ,选择 这 个 聚 类 算法 的 原因 也 是 因为 它 始终 从 已 有 的 点 中 寻找 新 的 中 心 , 这 就 
意味 着 算法 过 程 不 会 产生 新 的 点 ,也 就 无 须 重 新 计算 相似 度 ,进而 也 就 不 需要 返回 到 实验 一 
的 计算 部 分 。 试 想 聚 类 过 程 的 每 次 迭代 都 要 重新 计算 ES 和 矩阵 的 话 , 即 使 有 效 并 行 ,其 开销 
也 是 难以 承受 的 。 

综 上 ,算法 的 计算 框架 总 结 如 下 : 

1) 随机 选择 个 点 作为 聚 类 中 心 ; 

D 将 全 部 数据 点 根据 相似 度 划 分 到 A XS P ; 

D 寻找 每 个 类 簇 中 到 其 他 样本 点 平均 距离 最 近 的 点 作为 新 的 聚 类 中 心 ; 

4) 判断 当前 聚 类 中 心 是 否 跟 上 次 一 样 ,是 则 结束 ,否则 跳 入 2 步 继续 执行 。 

同时 ,该 算法 还 是 具有 同 KMeans 一 样 的 一 些 缺陷 ,比如 : 

KMedoids 也 需要 随机 地 产生 初始 聚 类 中 心 ,不 同 的 初始 聚 类 中 心 可 能 导致 完全 不 同 
的 聚 类 结果 。 这 一 部 分 可 以 进行 优化 ,通过 KMedoids++ 算 法 来 解决 。 

KMedoids++ 算 法 选择 初始 seeds 的 基本 思想 就 是 : 初始 的 聚 类 中 心 之 间 的 相互 距离 要 
尽 可 能 远 。 其 算法 描述 如 下 : 

(1) 从 输入 的 数据 点 集合 中 随机 选择 一 个 点 作为 第 一 个 聚 类 中 心 ; 

(2) 对 于 数据 集中 的 每 一 个 点 x, 计 算 它 与 最 近 聚 类 中 心 ( 指 已 选择 的 聚 类 中 心 ) 的 距 
离 D(x); 

(3) 选择 一 个 新 的 数据 点 作为 新 的 聚 类 中 心 ,选择 的 原则 是 : D(x) 较 大 的 点 ,被 选取 作 
为 聚 类 中 心 的 概率 较 大 ; 

(4) 重复 2 和 3 直到 A 个 聚 类 中 心 被 选 出 来 ; 

(5) 利用 这 上 个 初始 的 聚 类 中 心 来 运行 标准 KMedoids 算法 。 

如 此 便 是 优化 后 比较 完善 的 KMedoids 算法 。 对 算法 本 身 进 行 复杂 性 分 析 如 下 : 

首先 必须 明确 由 于 算法 的 执行 存在 随机 性 ,我 们 不 能 形式 化 地 判断 它 会 经 过 多 少 次 选 
代 后 收敛 ,所 以 对 于 算法 复杂 度 的 分 析 只 是 针对 单 次 迭代 过 程 ,假设 有 个 数据 点 和 k 个 
中 心 : 

CD. 生成 初始 聚 类 中 心 : 对 于 每 个 数据 点 都 要 遍历 已 有 的 每 一 个 聚 类 中 心 从 而 找到 离 
它 最 近 的 中 心 ,然后 从 这 几 个 最 近 中 心中 找到 那个 距离 最 远 的 作为 新 的 初始 中 心 ,如 此 再 重 
复 上 次 。 粗 略 估计 复杂 度 约 为 : OC(k(kn 十 n)) 二 OC(k?n)。 如 果 不 是 KMedoids++ 的 话 ,直接 
随机 生成 这 一 步 基本 就 没什么 开销 了 。 

@ 划分 数据 到 类 簇 : 又 是 每 个 点 遍历 各 聚 类 中 心 On) o 
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O 寻找 新 的 聚 类 中 心 : 每 个 点 要 在 各 自 的 类 簇 中 计算 它 到 其 他 点 的 平均 距离 ,然后 再 
在 各 自 的 类 簇 中 确定 平均 距离 最 小 的 点 作为 新 的 聚 类 中 心 ,综合 来 看 这 一 步 的 时 间 复 杂 度 
FE OQ), 

综 上 ,开销 最 大 的 应 该 还 是 寻找 新 中 心 的 部 分 ,至 于 生成 初始 中 心 的 过 程 ,因为 始终 只 
有 一 次 , 当 和 迭代 次 数 比较 多 的 时 候 ,基本 就 可 以 忽略 不 计 了 。 


11.4.2 基因 谱 两 两 比 对 一 一 富 集 积 分 矩阵 并 行 化 计算 


首先 必须 明确 ,该 实验 的 并 行 并 不 是 对 单 次 计算 富 集 积分 的 算法 过 程 进 行 并 行 , 而 是 通 
过 有 效 的 数据 划分 和 负载 均衡 手段 对 计算 大 规模 富 集 积分 矩阵 的 过 程 进行 并 行 。 不 对 单 步 
富 集 积 分 计算 算法 进行 并 行 的 原因 是 : 一 来 它 本 身 不 适合 并 行 ,虽然 有 些 前 级 求 和 的 操作 
也 能 通过 消除 循环 依赖 的 办 法 强行 并 行 , 但 是 平 白 增加 整体 的 工作 量 ,得不偿失 ; 二 来 本 身 
只 计算 一 个 富 集 积分 即使 是 在 全 基因 两 万 多 长 度 的 基因 谱 上 也 不 是 个 多 大 的 工作 量 , 对 它 
并 行 粒度 太 小 ,反而 大 量 增加 额外 调度 开销 ,绝对 不 可 取 。 

综 上 ,本 实验 会 通过 合理 的 数据 划分 手段 ,结合 MPI 和 OpenMP 两 级 并 行 技 术 , 在 计 
算 整 个 矩阵 的 更 大 粒度 上 完成 基因 谱 两 两 比 对 的 并 行 化 工作 。 

1. 优化 富 集 积分 标准 计算 例 程 

由 于 实验 过 程 会 重复 地 计算 富 集 积分 ,优化 该 步骤 势必 会 获得 较为 理想 的 性 能 加 速效 
果 。 于 是 我 们 不 再 根据 GSEA 算法 按部就班 地 直接 实现 富 集 积 分 的 计算 ,而 是 采用 了 下 面 
的 优化 策略 。 富 集 积分 的 标准 计算 流程 主要 是 对 命中 向 量 Pi 以 及 命中 向 量 取 反 后 得 到 的 
Ps 向量 进行 前 缀 求 和 ,找到 绝对 值 相差 最 大 的 位 置 ,其 实际 差 值 就 是 富 集 积 分 ,能 够 反映 
特定 基因 集 在 基因 谱 中 的 富 集 情 况 。 如 果 一 个 基因 谱 的 上 调 基因 集中 富 集 于 另 一 基因 谱 的 
上 调 位 置 , 下 调 基 因 集 中 富 集 于 另 一 个 基因 谱 的 下 调 位 置 , 则 我 们 在 生物 学 上 认为 这 两 个 基 
因 谱 存在 极 大 的 相关 性 。 

计算 过 程 中 ,命中 向 量 的 长 度 与 基因 谱 的 长 度 是 一 致 的 ,导致 整个 计算 过 程 的 时 间 复 杂 
度 是 O(z) 。 但 是 通过 观察 发 现 ,前 项 累加 的 向 量 中 绝对 值 相差 最 大 的 位 置 只 会 出 现在 命中 
位 置 的 前 后 。 所 以 ,本 系统 通过 细致 的 条 件 判 断 只 考察 命中 位 置 的 几 个 点 同样 计算 出 了 正 
确 的 富 集 积分 ,将 时 间 复 杂 度 减 小 到 了 O(log:m) 十 O(m) ,多 了 一 个 O(logsm) 是 因为 在 考 
察 之 前 会 先 对 命中 位 置 进行 排序 。 而 在 实际 情况 下 ,基因 谱 的 长 度 一 般 来 说 远 远 大 于 上 下 
调 基 因 和 集 的 长 度 ,也 就 是 n 远 远大 于 m。 当 大 规模 重复 进行 富 集 积分 标准 计算 流程 时 ,这 样 
的 优化 将 会 带 来 十 分 可 观 的 性 能 提升 。 

综 上 ,优化 后 的 富 集 积分 计算 标准 流程 如 图 11-3 所 示 。 

如 图 11-3 所 示 , 对 首 末 位 置 的 特殊 处 理 是 因为 会 存在 数组 越界 的 情况 。 之 所 以 要 先 排 
序 , 是 因为 判断 低 峰 和 高 峰 时 需要 知道 到 目前 为 止 已 经 命中 了 多 少 次 。 另 外 高 峰 和 低 峰 一 
个 时 刻 只 能 有 一 个 存在 , 即 峰值 点 唯一 。 毕 竟 富 集 积分 虽然 取 的 是 真实 差 值 ,但 是 我 们 判断 
的 却 是 绝对 差 值 ,高 峰 和 低 峰 分 别 代表 的 正 负 的 富 集 积分 ,最 后 只 留 下 绝对 值 更 大 者 。 

具体 代码 见 src 文件 夹 下 GSEA.c 中 的 ES GeneSet 函数 ,相关 伪 代 码 如 下 : 
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由 基因 集 和 索引 谱 计算 命中 向 量 


i 


对 命中 向 量 排序 


i 


特殊 处 理 首 末 的 命中 位 置 


i 
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遍历 命中 位 置 


前 一 个 位 置 是 miss 吗 ? 


决定 前 一 个 位 置 是 否 为 目前 的 低 峰 
否 并 更 新 ES 的 什 
J 


分 析 下 一 个 命中 位 置 
i 


决定 后 一 个 位 置 是 否 为 目前 
并 更 新 ES 的 值 
J 


妨 历 到 命中 向 量 的 
最 后 位 置 吗 ? 


图 11-3 优化 的 富 集 积分 计算 标准 流程 


Algorithm 2. New Algorithm. 
calculate the Enrichment Score 


: Input: profile, geneset 
: Output:es 

: Variables: siglen, len 
: Containers; isgs, index 


len--length of profile 
: for gene g in profile do 
index[ profile[g]]<g 
; end for 
10:for gene g in geneset do 
11; isgs[g]--index[geneset[g]] 
12: end for 
13:sort isgs ascendingly 


1 
2 
3 
4 
5, siglen--length of geneset 
6 
7 
8 
9 


14;for gene g in geneset do 
15, if g is the first gene in geneset then 
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16: if isgs[g] is not the first gene in profile then 

17: if prev gene before g reach max absolute value of current es then 

18; es+ - isgs[ g]/(1 - siglen) 

19; end if 

20; end if 

21; if the gene after g is not isgs[g * 1] and g reach max absolute value of current es then 
22: es<(g +1)/siglen - (isgs[g]- g)/(1en - siglen) 

23: end if 

24; else if g is the last gene in geneset then 

25; if g reach max absolute value of current es then 

26; es--(g * 1)/siglen - (isgs[g]- g)/(1en - siglen) 

27; end if 

28; if the gene before g is not isgs[g - 1] and reach max absolute value of current es then 
29; es--g/siglen - (isgs[g] - g)/(1en - siglen) 

30; end if 

31; else 

32i if the gene after g is not isgs[g * 1] and g reach max absolute value of current es then 
33; es<(g +1)/siglen - (isgs[g] - g)/(1en - siglen) 

34; end if 

35: if the gene before 9 is not isgs[g - 1] and reach max absolute value of current es then 
36; es--g/ siglen - ( isgs[g] - g)/(1en - siglen) 

37; end if 

38; end if 

39 :end for 


2. 消除 郊 余 计算 

因为 我 们 的 任务 是 基因 谱 的 两 两 比 对 ,所 以 同一 个 基因 谱 在 计算 的 过 程 中 肯定 会 被 重 
复 地 用 到 。 而 对 同一 个 基因 谱 的 排序 工作 也 会 因此 反复 地 进行 ,这 显然 都 是 没有 必要 的 宛 
余 工作 。 于 是 我 们 在 读 入 文件 后 就 先 对 所 有 的 基因 谱 进 行 预 排序 ,之 后 处 理 的 都 将 是 排序 
后 的 转录 组 基因 谱 , 从 而 排除 元 余 的 排序 过 程 。 

另 一 方便 , 富 集 积分 的 计算 过 程 会 首先 计算 一 个 命中 向 量 , 即 一 个 基因 谱 的 上 调 或 下 调 
基因 集 在 另 一 个 排 好 序 的 基因 谱 中 出 现 的 位 置 。 直 观 地 ,我 们 会 想到 这 步 操作 需要 循环 遍 
历 基因 谱 和 基因 集 。 如 果 基 因 集 的 长 度 时 mm, 基 因 谱 的 长 度 是 n, 则 该 步 又 将 是 一 个 时 间 复 
杂 度 为 OCzzz) 的 操作 。 为 了 提高 效率 ,我们 的 系统 先 扫描 一 遍 基 因 谱 建立 每 个 基因 的 位 置 
索引 数组 ,然后 只 用 再 扫描 一 遍 基 因 集 即 可 完成 工作 ,从 而 时 间 复 杂 度 减 小 到 OG +n) ,并 
且 用 索引 数组 蔡 代 原来 的 排序 基因 谱 也 并 不 会 造成 额外 的 空间 开销 。 

但 是 ,与 排序 一 样 的 问题 ,同一 个 基因 谱 会 因为 两 两 比 对 反复 地 建立 索引 ,这 还 是 宛 余 
的 操作 。 同 样 的 ,我 们 在 完成 预 排 序 的 同时 就 先 为 每 个 基因 谱 建 立 好 索引 并 用 之 替代 原来 
的 排序 基因 谱 。 但 是 只 有 索引 数组 并 不 能 确定 原来 基因 的 上 下 调 基 因 集 , 故 而 在 读 人 数据 
后 的 预 处 理 部 分 ,我 们 用 一 个 三 元 组 保存 基因 谱 的 结构 , 它 分 别 由 上 调 基因 集 ` 下 调 基 因 集 
和 索引 数组 三 部 分 组 成 。 

通过 以 上 三 个 方面 的 工作 ,就 能 尽 可 能 地 消除 了 并 行 计 算 带 来 的 宛 余 操作 。 

3. 数据 划分 与 负载 均衡 

为 了 达到 计算 过 程 负载 均衡 的 目标 ,案例 首先 对 数据 在 进程 间 进行 了 合理 的 划分 。 

因为 软件 的 输入 是 两 个 基因 谱 集 的 文件 ,所 以 数据 的 划分 其 实 就 是 对 这 两 个 文件 的 划 
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分 ,使 每 个 进程 拥有 大 致 等 量 的 待 计算 基因 谱 。 

基于 此 ,对 于 文件 一 ,系统 直接 按 进程 数 进行 划分 ,使 每 个 进程 持 有 文件 一 的 基因 谱 数 
相差 不 超过 一 ,如 果 文 件 一 的 基因 谱 数 刚好 能 够 被 启动 的 进程 数 整除 的 话 , 则 它 将 被 均匀 地 
划分 给 每 个 进程 。 这 是 容易 做 到 的 。 

对 于 文件 二 ,如 果 我 们 再 将 它 按 进程 进行 负载 均衡 地 划分 ,我 们 将 不 能 完成 两 文件 中 任 
意 两 个 基因 谱 的 比 对 工作 。 比 如 分 给 进程 0 的 文件 1 的 数据 将 不 能 与 分 给 进程 1 的 文件 2 
的 数据 进行 比 对 ,如 果 强 行 比 对 的 话 , 各 进程 在 计算 的 过 程 中 还 要 进行 大 规模 的 通信 工作 ， 
这 对 性 能 的 开销 显然 是 巨大 的 。 
于 是 ,在 衡量 了 一 般 内存 足 够 的 情况 下 ,我 们 选择 了 牺牲 一 定 空间 的 策略 ,让 每 个 进程 
持 有 全 部 的 文件 2 的 基因 谱 数 据 , 从 而 让 整个 大 规模 并 行 计算 的 过 程 完全 不 存在 通信 的 任 
务 , 最 大 限度 地 保障 了 系统 的 计算 性 能 。 

相应 地 ,在 进程 内 部 ,我 们 会 采用 多 线程 的 策略 对 文件 2 的 数据 进行 负载 均衡 地 划分 与 
计算 。 因 为 线程 任务 先天 共享 内 存 ,这 样 ,我 们 就 可 以 充分 发 挥 多 核 并 行 的 优势 ,完成 我 们 


的 大 规模 并 行 计算 工作 。 
整个 数据 划分 方式 如 图 11-4 所 示 。 
Filel File2 
E eG 
E (OF lend 
3 : E ES Matrix 
— | E 

E: Pn 

^ tm 
On 


11-4 总 体 数据 划分 图 


上 图 清楚 地 显示 出 两 个 文件 的 基因 谱 数 据 在 各 进程 以 及 进程 内 部 的 线程 中 的 划分 方 
式 , 同 时 可 以 看 到 ,最 后 每 个 进程 会 写 出 结果 的 各 个 子 矩 阵 行 。 
计算 过 程 每 个 MPI 进程 内 部 开启 的 OpenMP 多 线程 计算 核心 代码 如 下 : 


[epee HEHE Heer para compute the part of ES Matrix 闪闪 关 关 关 关 关头 关 关头 关 关 关 关 关头 关 关头 关 / 
//allocate the local ES Matrix memory 
local ES Matrix = (float ** )malloc(local P * sizeof(float *)); 
for(i-0;i«local P;i++) 
local ES Matrix[i] = (float * )malloc(profilenum2 * sizeof(float)); 
* pragma omp parallel num threads(corenum) 
t 
intk,t; 
int local t; //the data number of each thread must hand 
int begin t,end t; 
int threadID = omp get thread num(); 
// compute the local size,boundary for every thread in dataset2 
split data(profilenum2, corenum, threadID, &begin t, &end t, &local t); 
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//compute the part of the ES matrix 
for(k= 0;k<local_P;k++) 
for(t= begin t;t« end t;t++) 
local ES Matrix[k][t] = ES Profile triple(triplesl[k], triples2[t], 
genelen, siglen); 
} 
MPI Barrier(MPI COMM WORLD); 


对 于 具体 的 实现 ,文件 一 直接 用 封装 好 的 IO 函数 定位 相应 的 部 分 数据 进行 读 取 即 可 。 定 
位 读 取 函 数 和 分 块 写 结果 函数 见 源码 src 目录 下 IO. c 中 的 ReadFile 和 WriteResult 函数 。 

至 于 文件 二 ,简单 的 策略 是 直接 由 每 个 进程 读 取 全 部 的 文件 二 数据 ,这 样 将 不 存在 任何 
的 通信 工作 ,但 是 也 没有 体现 任何 的 并 行 工 作 。 或 者 我 们 让 一 个 进程 读 取 全 部 的 文件 二 的 
数据 ,然后 将 之 均匀 地 划分 给 每 个 进程 ,但 这 样 我 们 不 仅 要 像 前 一 种 方法 一 样 等 待 一 个 进程 
读 完 一 个 完整 文件 二 的 时 间 还 要 再 进行 通信 ,显然 数据 划分 的 性 能 并 不 会 理想 。 

替代 地 ,我 们 让 每 个 进程 一 开始 只 并 行 地 读 取 部 分 文件 二 的 数据 ,然后 通过 全 局 通信 操 
作 让 每 个 进程 持 有 全 部 的 文件 二 的 数据 ,这 样 读 文 件 的 时 间 将 被 大 大 地 缩短 。 如 果 我 们 的 
全 局 操作 实现 得 足够 高 效 的 话 ,即使 加 上 额外 的 通信 ,我们 也 将 获得 可 观 的 性 能 提升 。 

幸运 的 是 ,MPI 的 全 局 操作 函数 MPL Allgather 已 经 为 我 们 需要 的 通信 工作 提供 了 高 
效 的 实现 。 当 然 了 ,如 果 数 据 集 无 法 均 分 ,我 们 还 是 要 自行 实现 Allgather 操作 。 

文件 二 的 划分 方式 如 图 11-5 所 示 。 


Allgather 


图 11-5 文件 二 数据 划分 全 局 策略 通信 图 
用 MPI 进行 数据 划分 的 核心 部 分 代码 如 下 : 


/*xxxxxxxxxxxxxxx Allgather part of data2's triple in all process X:xeeeeeeeeeee / 
if(profilenum2 $ p == 0){ //can split blanced 
MPI Allgather(local triples2,1ocal P d2,triple mpi t,triples2,local P d2,triple mpi 
t,MPI COMM WORLD); 
free(local triples2); 
}else{ //can not split blanced 
if(my_rank == 0){ 
/ ****** gather data2's triple in process0 ****** / 
int leave = profilenum2 % p; 
//tmp memory for processes before leave 
struct Profile triple * tmpl = (struct Profile triple * )malloc(local P d2* 
sizeof(struct Profile triple)); 


第 11 章 基于 细胞 反应 大 数据 的 生物 效应 评估 计算 


//tmp memory for processes after leave 
struct Profile triple * tmp2 = (struct Profile triple * )malloc((local P d2- 1) 
* sizeof(struct Profile triple)); 
//copy local triples vector in process0 to global triples vector 
memcpy(triples2,local triples2,local P d2 * sizeof(struct Profile triple)); 
/ x**** receive and copy data2's local triple vector in other processes to 
global triple vector :«xx*« / 
for(i=1; i<p; i++){ 
if(i« leave) { 
MPI Recv(tmpl, local P d2, triple mpi t, i, tag, MPI COMM WORLD, &status); 
memcpy(&triples2[i * local P d2], tmpl, local P d2 * sizeof (struct 
Profile triple)); 
}else{ 
MPI Recv(tmp2, local P d2- 1, triple mpi t, i, tag, MPI COMM WORLD, &status); 


memcpy(&triples2[i * (local_P_d2 - 1) + leave], tmp2, (local_P_d2 - 1) * 
sizeof (struct Profile triple)); 
} 

) 

free(tmpl); 

free(tmp2); 
Jelse( 

MPI Send(local triples2, local P d2, triple mpi t, 0, tag, MPI COMM WORLD); 
) 
free(local triples2); 
//Bcast the dataset2's triples to all process 
MPI Bcast(triples2, profilenum2, triple mpi t, 0 ,MPI COMM WORLD); 


另外 ,三 种 对 文件 二 进行 划分 的 完整 程序 可 以 详 见 src 目录 下 ES. Matrix ompi | 


nocom, c, ES Matrix ompi p2p.c fll ES Matrix ompi cocom. c 三 个 c 语 言 源 代码 。 


综 上 ,该 部 分 工作 总 体 流程 如 图 11-6 所 示 。 


读 入 两 基因 谱 文件 集 | 
1 
各 基因 谱 的 预 排 序 和 三 元 组 构造 | 
1 
数据 划分 与 通信 | 
| 
| 


i 
各 进程 多 线程 地 计算 各 子 结果 矩阵 


各 进程 分 别 写 出 各 子 结果 和 矩阵 


CD 


11-6 基因 谱 集 两 两 比 对 工作 流程 图 


427 


428 


云 计 算 与 大 数据 技术 理论 及 应 用 


11.4.3 基因 谱 聚 类 分 析 一 一 KMedoids 算法 并 行 化 


聚 类 实验 的 并 行 化 就 是 单纯 地 对 KMedoids 算法 的 并 行 化 。 不 像 实验 一 , 它 没有 太 多 
的 转换 准备 技巧 ,就 是 在 实验 一 的 基础 上 先 由 每 个 进程 读 和 自己 的 那 部 分 ES 矩阵 行 ,每 一 
行 代表 一 个 基因 谱 相对 于 其 他 所 有 基因 谱 的 距离 向 量 ,后 面 的 算法 过 程 ,每 个 进程 都 只 管 自 
己 这 几 行 基因 谱 的 计算 ,其 中 会 用 集合 通信 的 方式 在 各 进程 间 全 局 维护 一 个 类 标记 向 量 , 这 
就 是 利用 MPI 完成 的 进程 级 并 行 。 至 于 每 个 进程 对 持 有 的 基因 谱 集 进 行 划分 以 充分 利用 
单 节点 处 理 器 资源 完成 类 簇 规 划 和 寻找 新 中 心 的 操作 ,这 又 是 OpenMP 完成 的 线程 级 并 行 
工作 。 

在 并 行 实现 的 过 程 中 仍 有 许多 细节 需要 注意 ,其 具体 实现 如 下 所 述 : 

D 每 个 进程 读 取 其 下 部 分 ES 矩阵 结果 (由 其 rank 号 ,故而 这 部 分 进程 数 应 该 与 之 前 
计算 ES 矩阵 并 写 文件 时 一 致 ) 。 

2) 每 个 进程 下 生成 一 个 nl 长 度 的 类 标记 向 量 local_classflag, 作 为 全 局 类 标记 向 
量 的 局 部 ,所 有 进程 的 向 量 总 长 应 为 基因 谱 总 数 n。 同 时 每 个 进程 内 应 该 保有 自己 每 
行 基因 谱 的 global rank 起 始 号 ,由 基因 谱 总 数 与 进程 数 就 可 计算 判定 , 同 划 分 时 一 样 
的 操作 。 

3) 随机 生成 0-n Hk 个 不 重复 的 随机 数 ,作为 上 个 初始 聚 类 中 心 。 

4) 划分 类 : 每 个 进程 判 其 每 一 行 基因 谱 到 &A 个 聚 类 中 心 的 距离 ,选择 最 小 的 一 个 ,将 其 
归属 该 类 «Local. class f lag 对 应 位 置 标记 为 该 聚 类 中 心 编号 。 这 里 用 OpenMP 多 线程 判断 
每 一 行 。 

5) 找 新 聚 类 中 心 : 合并 Local. classflag W global classflag 到 0 号 进程 ,然后 广播 给 
其 他 进程 (当然 如 果 是 平均 划分 的 可 以 直接 Allgather)。 每 个 进程 判 其 每 一 行 基因 谱 到 同 
类 其 他 基因 谱 的 平均 距离 (这 里 需要 由 Local. classflag 知道 该 行 的 类 标 , 然 后 遍历 global | 
classflag 找到 同一 类 的 其 他 基因 谱 )。 每 个 进程 用 一 个 n1 长 度 的 向 量 loc_avedis 存 平 均 
长 度 ( 这 里 亦 用 OpenMP 并 行 实现 ) 。 然 后 将 这 些 局 部 平均 长 度 向 量 gather 到 0 号 进程 的 
global avedis 向 量 , 其 长 为 基因 谱 总 数 n。 找 到 每 类 中 平均 长 度 最 小 的 基因 谱 作为 个 新 
的 聚 类 中 心 。 

6) 判断 和 之 前 相 比 聚 类 中 心 有 没有 发 生变 化 ,没有 则 停止 ,并 输出 相应 结果 ; 有 变化 
则 重复 执行 4) 。 

值得 注意 的 是 ,这 里 基因 谱 之 间 的 距离 是 用 富 集 积分 的 倒数 来 进行 衡量 的 ,ES 值 越 大 
说 明基 因 谱 间 越 相似 ,距离 就 越 近 ,故而 这 样 处 理 很 容易 理解 。 

对 于 优化 的 KMedoids++ 算 法 ,只 是 在 3) 中 进行 更 多 的 操作 , 按 算法 介绍 的 流程 生成 初 
始 聚 类 中 心 即 可 ,大 概 也 是 和 上 面 一 样 的 MPI 十 OpenMP 双重 并 行 技巧 ,这 里 不 再 费 述 。 
实现 代码 较 长 ,可 见 sre 目录 下 Cluster KMediods ompi. c 和 Cluster KMediods++_ompi. c 
两 个 C 语 言 源 代码 。 

每 次 迭代 的 并 行 化 过 程 如 图 11-7 所 示 。 
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E 物 效应 评估 计算 


Generate init centers 


center number 
E 
* 1 
EN 
s .~ . Allgathert A 
ES_Matrix Classify ; ^^ gather to ES_Matrix 
" ' all processes 
ci D 
Q4 —— ———cH 
profile number Gather to root 
process 
Broadcast to all Root Process. 
processes if altered 
compare 


Calculate new centers 


Write out if not altered 


(cluster centers GB local class flag W global avesimilarity 


E new cluster centers B global class flag Wl local avesimilarity 


图 11-7 每 次 迭代 并 行 化 实现 框图 


11.5 结果 展示 


11.5.1 基因 谱 两 两 比 对 


PT 


Pn 


计算 富 集 积分 矩阵 实验 分 析 
实验 中 在 天 河 二 号 上 使 用 了 包含 2 万 基因 谱 的 数据 集 进 行 实验 ,设置 不 同 的 并 行程 度 ， 


记录 各 部 分 的 运行 时 间 ,以 研究 程序 的 性 能 和 可 拓展 性 。 实 验 结果 如 表 11-1 所 示 。 
表 11-1 基因 谱 比 对 实验 各 阶段 运行 时 间 记 录 表 
Process | Threads Load(s) 
cores Compute(s) Write(s) 
number | perprocess No P2P Co 
3 15 1. 280 2.685 1.691 675. 496 20. 990 
6 30 1.878 3.099 1.678 351. 376 21.077 
5 9 45 2.094 4.035 1.361 247.510 20.861 
12 60 2.505 4. 892 1.421 189. 706 20. 627 
3 30 1.810 4.918 1.254 344. 862 12. 012 
6 6 60 2.654 5.555 1.391 174. 435 10. 507 
9 90 2.534 5. 632 1.432 123.210 10. 24 
12 120 2.395 5. 352 1.253 94.438 10. 477 
3 60 1.045 9.124 1.143 173. 747 5. 327 
20 6 120 1.349 9. 813 0.912 91. 402 5. 280 
9 180 1.784 9.212 0. 900 64. 873 5.371 
12 240 2.264 10.213 0. 992 49. 286 6. 025 
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表格 数据 观察 不 太 直观 ,可 以 绘制 如 图 11-8 所 示 的 堆积 柱状 : 


Time/s 


15(5P*3T) 


o 588 
30(5P*5T) ks 
56) as 
60(5P*12T) (M 
30(10P*3T) ENEENEEEENI 
60(10P*6T) NENNEN 
90(10P*9T) MEN 


120(10P*12T) BN 
60(20P*3T) NEN 
120(20P*6T) NN 
180(20P*9T) NN 

240(20P*12T) | 


Cores 
mnocom load wp2p load wcocom load m Matrix calculation = write 


图 11-8 基因 谱 比 对 实验 各 阶段 运行 时 间 堆 积 柱状 图 
如 上 图 所 示 , 数 据 载 入 部 分 的 时 间 开 销 是 比较 小 的 ,说 明 并 行文 件 读 入 还 是 比较 高 
效 的 。 
另外 对 三 种 通信 模式 分 析 , 可 以 看 到 全 局 通信 优 于 无 通信 优 于 点 对 点 通信 。 分 析 三 种 
模式 实现 策略 不 难 发 现 这 样 的 结果 还 是 比较 合理 的 。 首 先 点 对 点 通信 效果 最 差 是 由 于 它 要 
先 等 0 号 进程 读 完整 个 文件 后 ,再 由 0 号 进程 将 数据 发 给 其 他 进程 。 这 样 一 来 ,因为 无 通信 
的 情况 下 , 它 只 用 花费 读 文件 的 时 间 , 所 以 显然 这 种 点 对 点 通信 策略 的 性 能 会 次 于 无 通信 。 


但 是 它 会 减少 系统 总 体 的 通信 开销 。 
全 局 通信 每 个 进程 只 读 取 部 分 文件 ,然后 通过 Allgather 操作 将 数据 整合 并 发 给 全 部 


进程 ,这 样 整体 的 IO 是 比较 小 的 ,并 且 可 以 并 行 完成 ,只 是 多 了 大 量 的 通信 。 显 然 它 是 有 
可 能 在 性 能 上 优 于 无 通信 策略 的 。 而 测试 的 结果 也 确实 如 此 。 写 文件 的 操作 以 进程 数 为 基 
准 划分 ,可 以 看 到 ,相同 进程 数 下 , 写 文件 的 时 间 是 大 致 相同 的 。 而 不 同 进程 数目 下 ,测试 结 
果 也 表现 出 比较 好 的 可 拓展 性 。 

ES 和 矩阵 的 计算 部 分 也 体现 出 较 好 的 可 拓展 性 。 前 期 看 来 ,基本 是 每 增加 一 倍 的 并 行 
E ,运行 时 间 就 减少 一 倍 ,效率 接近 恒定 为 1, 理想 上 已 经 趋 近 于 强 可 拓展 的 应 用 。 这 可 能 
是 因为 这 部 分 操作 是 严格 的 数据 并 行 , 在 写 出 文件 之 前 根本 就 没有 节点 之 间 的 通信 。 所 以 
整体 上 有 了 现在 这 样 比较 理想 的 效果 。 但 很 难保 证 继续 增加 并 行 度 ,这 样 的 效果 还 可 以 继 
续 保 持 。 所 以 扩大 数据 规模 和 并 行程 度 ,用 5 万 的 基因 谱 集 对 比分 析 , 结 果 如 图 11-9 
所 示 。 

如 图 11-9 Bros ,数据 集 规模 越 大 ,在 扩大 并 行 度 时 ,并 行 效率 保持 得 越 高 越久 。 这 意味 
着 集群 规模 足够 的 情况 下 ,本 实验 的 程序 将 极 好 地 适应 大 规模 数据 分 析 的 需求 ,实验 还 是 相 
当成 功 的 。 
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图 11-9 不 同 规模 数据 集 并 行 效率 比较 图 


11.5.2 基因 谱 聚 类 实验 分 析 


1. 性 能 分 析 
使 用 2 万 规模 和 5 万 规模 基因 谱 数 据 集 比较 单 次 迭代 过 程 中 两 种 聚 类 算法 的 执行 效 
率 , 结 果 如 图 11-10 所 示 。 
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5 10 20 40 80 
Cores 
D2w KMediods @2w_Kmdiods++ 
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Parallel Efficiency 


因为 算法 的 随机 性 ,相同 参数 下 多 次 运行 程序 执行 的 收敛 步 是 不 一 样 的 。 所 以 不 能 由 
总 的 执行 时 间 评 估算 法 的 性 能 ,只 能 如 上 图 一 样 根据 单 次 迭代 执行 时 间 来 分 析 。 具 体 的 时 
间 数 据 不 细 给 出 ,将 其 转换 计算 成 效率 确 如 上 图 所 示 。 

不 难看 出 在 每 次 迭代 的 过 程 中 算法 保持 了 比较 良好 的 可 拓展 性 ,前 期 算法 都 会 维持 接 
近 于 1 的 高 效率 。 同 时 KMedoids 和 KMedoids++ 的 实现 在 数据 集 规模 相同 的 情况 下 ,效率 
也 基本 接近 ,毕竟 它们 只 有 在 寻找 初始 聚 类 中 心 时 不 同 , 并 不 会 太 影响 后 面 每 次 的 迭代 
过 程 。 

同样 地 可 以 发 现 数据 集 规模 越 大 ,在 扩大 并 行 度 时 ,并行 效率 保持 得 越 高 越久 。 这 意味 
着 集群 规模 足够 的 情况 下 ,本 实验 的 程序 将 极 好 地 适应 大 规模 数据 分 析 的 需求 。 

2. 算法 收敛 性 评估 

好 的 聚 类 算法 必须 能 够 快速 地 收敛 ,该 部 分 实验 在 60 核 的 条 件 下 测试 不 同 聚 类 数目 ， 
2 万 和 5 万 两 种 数据 规模 下 两 种 聚 类 算法 的 收敛 步 与 总 时 间 ( 不 难 判断 ,这 两 个 指标 应 该 是 
基本 相互 对 应 ) ,得 到 多 次 测试 后 的 平均 结果 如 图 11-11 所 示 。 

需要 注意 : 320 核 时 有 些 数据 点 没有 画 出 来 , 那 是 因为 这 里 数据 值 的 增加 太 夺 张 ,测试 
过 程 已 经 懒得 等 了 。 同 时 也 和 测试 过 程 的 随机 性 有 关 。 通 过 图 11-11 不 难 发 现 , 聚 类 数 越 
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Convergence Steps Runtime 
—*—2w KMediods —9—2w KMediods++ —*—2w KMediods —9—2w KMediods++ 
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图 11-11 不 同 聚 类 中 心 数目 下 收敛 步 和 执行 时 间 折 线 图 


多 ,收敛 越 慢 , 执 行 时 间 也 越 长 。 另 外 ,由 于 KMedoids++ 在 生成 初始 聚 类 中 心 时 尽 可 能 地 
保证 了 样本 空间 距离 足够 远 , 所 以 它 相 对 于 KMedoids 能 够 更 快 地 收敛 ,效果 也 更 佳 。 同 
时 ,我 们 也 能 够 发 现在 相同 聚 类 数目 下 .数据 规模 越 大 可 能 收敛 得 也 越 快 。 

另外 值得 注意 的 是 ,如 果 算 法 在 非 相 邻 的 两 次 迭代 中 得 到 了 相同 的 新 聚 类 中 心 ,将 导致 
其 不 收敛 的 情况 发 生 。 实 验 中 也 曾 出 现 这 种 情况 。 为 了 避免 ,改进 的 实现 中 维护 了 一 个 聚 
类 中 心 集 列表 ,每 次 迭代 中 产生 的 未 出 现 过 的 新 聚 类 中 心 将 被 添加 其 中 ,如 果 新 中 心 已 经 存 
在 于 列表 中 , 则 算法 收 僵 。 但 该 策略 的 缺点 也 是 十 分 明显 的 ,首先 ,迭代 多 次 后 ,该 列表 会 越 
来 越 长 ,消耗 大 量 内 存 ; 同时 遍历 它 判断 是 添加 还 是 该 收敛 的 开销 也 会 越 来 越 大 。 所 以 建 
议 即 使 数据 集 足 够 大 ,也 不 要 把 聚 类 中 心 数 设 得 太 多 ,比如 超过 500 个 ,这 样 算法 还 是 能 够 
在 开销 过 大 之 前 有 效 地 收敛 的 。 

通过 以 上 各 部 分 的 分 析 , 相 信 读 者 对 生物 信息 大 数据 计算 和 分 析 优 化 的 方法 已 经 有 了 
一 定 程 度 的 了 解 。 不 过 上 述 案 例 只 是 针对 转录 组 大 数据 这 一 个 生物 信息 子 方向 ,可 以 说 不 
过 是 该 领域 的 冰山 一 角 。 其 他 更 多 有 趣 的 相关 领域 问题 , 感 兴趣 的 读者 可 以 继续 探究 。 


HB 


1. 什么 是 生物 效应 评估 ? 实现 它 的 主要 技术 路 线 是 什么 ?意义 何在 ? 

2. LINCS 项 目的 全 称 是 什么 ?” 甚 目标 是 什么 ? 已 取得 哪些 成 果 ? 

3. GSEA 算法 的 主要 思想 是 什么 ? 它 的 主要 的 步骤 有 哪些 ? 当 某 一 表达 谱 包含 1000 
个 基因 ,分别 取 前 50 个 基因 和 后 50 个 基因 为 基因 集 , 与 该 表达 谱 比 较 算得 的 富 集 积 分 为 多 
> (p=0)? 

4. KMedoids 聚 类 相 较 于 KMeans 算法 有 何 种 优势 ? KMedoids++ 又 作 了 何 种 优化 ? 

5. 案例 中 对 KMedoids 算法 并 行 化 的 核心 思路 是 什么 ? 
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基于 Spark 的 海量 宏 
基因 组 聚 类 问题 分 析 计 算 


针对 百 万 数量 级 宏基 因 组 聚 类 计算 时 ,存在 MGS 聚 类 方法 出 现 的 大 内 存 问题 ( 即 计算 
机 内 存 无 法 存放 由 算法 产生 的 中 间 结 果 ) 和 运行 时 间 过 长 的 问题 ,本 章 案例 将 整个 安 基因 组 
基因 聚 类 问题 划分 为 相似 基因 对 计算 和 基于 图 进行 宏基 因 组 基因 聚 类 两 个 子 问题 。 对 于 相 
似 基因 对 计算 问题 ,提出 了 针对 海量 数据 下 基于 Spark 平台 的 解决 方法 ,在 保证 一 定 精确 度 
的 前 提 下 ,利用 局 部 敏感 哈 希 方法 对 MGS 聚 类 方法 进行 加 速 。 可 以 在 保证 精确 度 大 于 
99% 的 情况 下 ,使 原 有 解决 方案 获得 5 一 14 倍加 速 比 。 对 于 宏基 因 组 基因 图 聚 类 问题 ,在 相 
似 基因 对 计算 的 基础 上 ,构造 出 了 宏基 因 组 百 万 基因 图 ,在 分 布 式 图 处 理 框 架 Spark 
GraphX 下 ,运用 社区 发 现 算法 完成 对 图 的 连通 性 分 析 和 聚 类 分 析 , 最 后 利用 可 视 化 工具 给 
出 了 连通 性 分 析 和 聚 类 分 析 的 一 些 结果 ,揭示 了 MGS 聚 类 方法 计算 性 能 受 “ 品 音 ” 干 扰 的 
原因 504 。 


12.1 相关 背景 介绍 与 基本 需 3 


12.1.1 相关 背景 


1. 宏基 因 组 聚 类 问题 

由 于 宏基 因 组 测序 样本 直接 来 源 于 环境 ,因此 宏基 因 组 测序 序列 分 类 就 成 了 宏基 因 组 
生物 信息 学 分 析 的 一 个 重要 问题 。 简 单 来 说 ,宏基 因 组 序列 分 类 就 是 要 和 弄 清楚 测序 文件 中 
的 每 一 条 序列 来 自 于 哪 一 种 生物 体 。 这 是 普通 的 基因 组 学 不 会 遇 到 的 问题 ,因为 普通 的 基 
因 组 学 的 序列 必然 来 自 于 同一 个 生物 体 , 也 就 来 自 于 同一 物种 。 


434 


云 计 算 与 大 数据 技术 理论 及 应 


宏基 因 组 测序 序列 分 类 问题 可 大 致 分 为 两 类 ,其 中 一 种 是 有 监督 的 分 类 ,另外 一 种 是 无 
监督 的 分 类 ,通常 也 被 称 为 聚 类 。 有 监督 的 分 类 是 在 已 知 某 些 物种 的 参考 基因 组 的 情况 下 ， 
将 测序 得 到 的 未 知 物种 的 序列 分 类 到 这 些 已 知 物种 类 别 下 。 而 无 监督 的 分 类 是 在 不 知道 任 
何 参考 基因 组 信息 的 情况 下 ,仅仅 依靠 测序 所 得 序列 之 间 的 相似 性 进行 聚 类 。 本 节 案 例 研 
究 重 点 为 宏基 因 组 基因 夷 类 问题 ,问题 的 形象 化 描述 如 图 12-1 所 示 。 


Genomic signatures: 
- GC/Codon usage 


- Tetranucleotide frequency+statistical method 
PhD student 


“Binning” 


Complex sample 


图 12-1 2AE A E AE A IR [n] RT AE HH GB 


图 12-1 中 的 小 朋友 就 象征 着 我 们 这 些 研究 者 , 面 对 一 大 堆 杂 乱 无 章 的 积木 ( 指 代 基因 

或 序列 ) ,他 们 的 目标 就 是 将 同一 颜色 的 积木 找到 并 放 在 一 起 ,而 我 们 的 目标 是 将 来 自 于 同 
-生物 体 或 物种 的 基因 或 序列 聚 成 一 类 。 

另外 ,对 于 宏基 因 组 聚 类 问题 需要 特别 指出 说 明 的 是 : 由 于 高 通 量 测序 得 到 的 序列 长 
度 很 短 ,直接 对 下 机 的 序列 数据 (下 机 数据 指 直接 从 测序 仪 上 获取 得 到 的 原始 测序 数据 ) 进 
行 聚 类 的 效果 并 不 好 ,因此 ,一 般 先 对 宏基 因 组 测序 的 下 机 数据 集 做 组 装 操作 ,得 到 contigs 
水 平 (contigs 即 重 琶 群 ,拼接 软件 基于 reads 之 间 的 overlap 区 ,拼接 获得 的 序列 称 为 
contig) 的 序列 (序列 长 度 大 于 1000bp) 之 后 ,再 执行 聚 类 操作 0 。 

2. 宏基 因 组 聚 类 方法 

宏基 因 组 聚 类 方法 的 核心 思想 在 于 假设 不 存在 任何 已 知 的 参考 基因 组 ,仅仅 根据 测序 
所 得 序列 自身 列 含 的 信息 ,运用 机 器 学 习 或 统计 的 方法 ,将 相似 的 测序 序列 聚 成 一 类 ,使 得 
最 终 得 到 的 分 类 结果 中 每 一 类 的 种 内 距离 最 小 ,而 种 间距 离 最 大 。 这 种 方法 通常 有 三 种 相 
似 性 度量 方法 : 一 种 是 测序 序列 的 长 子 串 (k-mer) 的 频率 分 布 , 另 一 种 是 测序 序列 中 出 现 的 
最 长 公共 子 串 的 长 度 , 最 后 一 种 是 测序 序列 中 短 子 串 的 频率 分 布 。 一 些 已 经 发 表 的 工具 的 
具体 情况 如 图 12-2 所 示 。 

在 这 些 给 出 的 方法 中 ,又 大 致 可 以 分 成 完全 无 监督 聚 类 、 基 于 模型 的 聚 类 和 多 样本 聚 类 
三 种 方法 。 本 节 案 例 仅 对 多 样本 聚 类 方法 做 详细 说 明 。 由 于 基于 物种 在 群落 中 丰 度 进行 聚 
类 的 方法 无 法 分 辩 在 群落 中 具有 相似 丰 度 的 物种 ,使 得 同时 考虑 多 样本 的 聚 类 方法 出 现 。 
例如 MultiBin555 采 用 的 方法 就 是 将 所 有 样本 的 所 有 reads 放 在 一 起 ,进行 双 序 列 比 对 
(pairwise alignment) ,然后 用 向 量 表示 序列 在 每 个 样本 中 的 覆盖 度 , 最 后 对 这 些 向 量 执行 
K-Medoids 聚 类 得 到 聚 类 结果 。 
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MultiBin | bacterial genomes pairwise alignment prre a m 2012 
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12-2 已 发 表 宏 基因 组 聚 类 工具 概括 


3. 局 部 敏感 哈 希 

局 部 敏感 哈 希 (Locality-sensitive hashing,LSH) 是 用 于 海量 高 维 数据 的 近似 最 近邻 快 
速 查找 技术 。 局 部 敏感 哈 希 的 应 用 场景 很 多 ,凡是 需要 进行 大 量 数据 之 间 的 相似 度 ( 或 距 
离 ) 计 算 的 地 方 都 可 以 使 用 局 部 敏感 哈 希 来 加 快 查找 匹配 速度 ,目前 局 部 敏感 哈 希 被 广泛 运 
用 到 相似 网 页 查找 、 图 像 检索 等 领域 。 本 节 案 例 使 用 局 部 敏感 哈 希 提前 过 滤 掉 不 相似 的 基 
因 对 , 减 小 皮尔 逊 相关 系数 的 计算 量 , 从 而 加 速 相似 基因 对 算法 。 

1) 局 部 敏感 哈 希 原理 

局 部 敏感 哈 希 的 主要 原理 可 描述 为 : 取 多 个 哈 希 函数 ,相对 于 不 相似 的 数据 对 象 而 言 ， 
这 些 函 数 以 更 高 的 概率 将 相似 的 数据 对 象 映射 到 相同 的 哈 希 桶 中 。 也 就 是 说 ,将 原始 数据 
空间 中 的 两 个 相 邻 数据 点 通过 相同 的 映射 或 投影 变换 后 ,这 两 个 数据 点 在 新 的 数据 空间 中 
仍然 相 邻 的 概率 很 大 ,而 不 相 邻 的 数据 点 被 映射 到 同一 个 桶 的 概率 很 小 。 通 过 局 部 敏感 哈 
希 将 原始 数据 集合 划分 成 了 多 个 子 集合 ,而 每 个 子 集合 中 的 数据 相 邻 概率 较 高 且 该 子 集合 
中 的 元 素 个 数 较 小 ,因此 对 于 查找 相 邻 元 素 的 问题 ,局 部 敏感 哈 希 将 搜索 空间 从 一 个 超大 集 
合 转化 为 一 个 很 小 的 集合 ,这 显然 降低 了 计算 量 。 实 质 上 ,局 部 敏感 哈 希 就 是 一 种 概率 的 、 
相似 度 保 留 的 降 维 方法 。 

2) 局 部 敏感 哈 希 函数 族 的 定义 

通过 上 述 的 简单 介绍 ,局 部 敏感 哈 希 确实 能 降级 有 关 问 题 的 计算 量 。 但 需要 注意 的 是 
取 怎 样 的 哈 希 函数 才能 保证 原本 相 邻 的 两 个 数据 点 经 过 哈 希 变换 后 会 以 较 高 概率 落 入 相同 
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的 桶 内 呢 ? 显然 并 不 是 所 有 的 哈 希 函数 都 具有 这 个 特点 ,下 面 我 们 给 出 局 部 敏感 哈 希 函数 
族 的 具体 定义 。 
对 于 空间 S 中 任意 两 个 数据 点 pq, 当 满足 式 下 述 条 件 时 , 则 称 函 数 族 H= (h: SU} 

JG ers spi + pi UR o 

如 果 d(p,g) <n» BA Pricu(h(p) = h() => pr 

如 果 d(p.q) Sree 那么 Prien hp) = h(DO > p: 
其 中 4d(p,q) 表 示 数 据点 p、q HIE BE. Prien (h(p) =h(q)) =sim (p.q) € [0.1 JA te BE 
上 定义 好 的 相似 性 函数 。h€ PR aS WY ir PR. a BEE ERIT A s AR P SH a 220 TRI PS 
定义 的 不 同 ,相对 应 的 哈 希 函数 也 不 同 。 下 面 给 出 本 节 案 例 具体 使 用 的 局 部 敏感 哈 希 函数 
族 。 本 节 案 例 使 用 皮尔 逊 相关 系数 (Pearson Correlation Coefficient) 作 为 基因 相似 性 的 度 
量 , 该 系数 广泛 用 于 度量 两 个 变量 之 间 的 相关 程度 。 两 个 m 维 向 量 z,y 之 间 的 皮尔 逊 相关 
系数 的 计算 公式 如 下 : 


35-59 
[de —z»* [Sox 
事实 上 ,皮尔 逊 相关 系数 就 是 向 量 去 中 心 化 之 后 的 余弦 距离 。 余 弦 距 离 是 用 向 量 空 间 


中 两 个 向 量 之 间 夹 角 的 余弦 值 作为 衡量 这 两 个 个 体 间 差 异 的 大 小 的 度量 ,也 被 称 为 余弦 相 
似 度 。 设 xz、y 表示 向 量 ,0 表示 这 两 个 向 量 之 间 的 夹 角 , 则 余弦 距离 的 计算 公式 为 : 


corr(z,y) = 


. xz. y 
sim(x,y) = cosl = Tat- ToT 


其 中 x，y 表示 两 个 向 量 的 点 积 , | xz、 y 分别 表 示 两 个 向 量 的 模 长 。 

因此 ,我 们 可 以 用 余弦 距离 对 应 的 局 部 敏感 哈 希 函数 族 作 为 皮尔 逊 相关 系数 的 局 部 敏 
感 哈 希 函数 族 , 只 需 将 所 有 向 量 事先 进行 去 中 心 化 操作 即 可 2。 

余弦 距离 对 应 的 局 部 敏感 哈 希 函数 族 为 : h(v) 二 sign(v*7), 其 中 7 是 一 个 随机 向 量 ， 
sign(v e PRIR AA ve r 的 符号 , 即 


l, ver>0 
sign(w。7) = 
0, v*:r«0 


这 个 哈 希 函数 是 (d ,d; ,1 一 di/x,1 一 di/7) 敏 感 的 , 它 也 被 称 为 SimHash™ , 

3) 增强 局 部 敏感 哈 希 的 方法 

在 局 部 敏感 哈 希 方法 中 ,我 们 希望 通过 喻 希 函 数 映射 得 到 一 个 或 多 个 喻 希 表 ,每 个 桶 内 
的 数据 点 之 间 相 似 的 可 能 性 很 大 。 也 就 是 原本 相 邻 的 数据 经 过 LSH 哈 希 后 ,都 能 够 落 和 人 
到 相同 的 桶 内 ,而 不 相 邻 的 数据 经 过 LSH 哈 希 后 ,都 能 够 落 入 到 不 同 的 桶 中 。 如 果 相 邻 的 
数据 被 投影 到 了 不 同 的 桶 内 ,我们 称 为 False Negative; 如 果 不 相 邻 的 数据 被 投影 到 了 相同 
的 桶 内 ,我们 称 为 False Positive。 因 此 ,在 使 用 局 部 敏感 哈 希 时 ,我 们 希望 能 够 尽量 降低 
False Negative Rate 和 False Positive Rate。 通 常 ,为 了 能 够 达到 上 述 目 标 ,一 般 使 用 
banding 技术 来 增强 LSH。 该 技术 的 具体 原理 可 用 图 12-3 和 图 12-4 所 示 的 banding 技术 
来 解释 。 
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Columns2and6 
A are probably identical 
(candidate pair). 


Columns 6 and 7 are 
surely different. 
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b bands 


. One 
signature 


Signature Matrix M 
图 12-3 LSH banding 技术 示意 图 一 图 12-4 LSH banding 技术 示意 图 二 

由 图 12-3 可 知 ,banding 技术 首先 将 Signature Matrix 分 成 一 些 bands, 每 个 bands fu 
含 一 些 rows。 然 后 把 每 个 band 哈 希 到 一 些 bucket 中 。 

这 里 必须 保证 bucket 的 数量 足够 多 ,这 样 才 能 使 得 两 个 不 一 样 的 bands 被 哈 希 到 不 同 
的 bucket 中 。 如 果 两 个 向 量 的 bands 中 ,至 少 有 一 个 共享 了 同一 个 bucket, 那 么 就 认为 这 
两 个 向 量 就 是 candidate pair, 也 就 是 很 有 可 能 是 相似 的 。 最 后 ,我 们 给 出 使 用 banding 技术 
时 的 两 个 向 量 落 到 同一 个 bucket 的 概率 随 相似 度 变化 的 图 ,如 图 12-5 所 示 。 


At least 
one band No bands 
identical identical 


Probability 1-(1-5^ 
of sharing 
a bucket 


Somerow All rows 
ofaband ofa band 


t unequal are equal 


Similarity s of two sets 一 一 


图 12-5 使 用 banding 技术 时 概率 随 相 似 度 变化 


4. 社区 发 现 算法 

为 了 理解 社区 发 现 算法 ,我们 首先 来 简单 了 解 相关 的 一 些 概念 。 

图 (Graph) : 表示 物件 与 物件 之 间 的 关系 的 方法 ,是 图 论 的 基本 研究 对 象 。 图 G 二 元 
组 (V, EE) 构 成 ,其 中 VC(Vertex) 表 示 顶 点 集合 ,E(Edge) 表 示 边 的 集合 。 在 有 的 应 用 场景 图 
也 被 称 为 网 络 。 

社区 (Community) : 社区 是 一 个 子 图 ,同一 社区 内 的 顶点 与 顶点 之 间 的 联系 很 紧密 ,而 
社区 与 社区 之 间 的 连接 比较 稀疏 。 从 这 个 定义 可 以 看 出 社区 是 一 个 比较 含糊 的 概念 , 它 仅 


仅 是 一 个 定性 的 刻画 。 
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社区 发 现 (Community Detection): KA G=G(V, E) ,所 谓 社区 发 现 是 指 在 图 G 中 确 
定 n(n 三 1) 个 社区 C= {C C; C.) ,使 得 各 社区 的 顶点 集合 构成 V 的 一 个 覆盖 。 

根据 上 述 这 些 描述 可 以 看 出 社区 发 现 是 一 个 复杂 而 有 意义 的 过 程 , 它 对 研究 图 即 网 络 
的 特性 具有 重要 作用 。 近 些 年 来 ,这 一 领域 的 研究 得 到 了 许多 学 者 的 关注 ,同时 也 出 现 了 很 
多 社区 发 现 算法 ,如 标签 传播 算法 (Label Propagation Algorithm, LPA) , Fast Unfolding 
算法 等 。 这 里 只 对 LPA 做 简单 的 介绍 。 标 签 传播 算法 的 流程 可 大 致 描述 如 下 : 

CD 初始 化 图 ,同时 为 所 有 顶点 指定 一 个 唯一 的 标签 ,一 般 这 个 唯一 标签 可 以 取 顶 点 
的 id; 

(2) 迭代 更 新 所 有 顶点 的 标签 ,直到 达到 收敛 要 求 为 止 。 对 于 每 一 轮 迭 代 , 顶 点 标签 更 
新 的 规则 如 下 : 对 于 某 一 个 顶点 ,考察 其 所 有 邻居 顶点 的 标签 ,并 进行 统计 ,将 出 现 个 数 最 
多 的 那个 标签 赋 给 当前 顶点 。 当 个 数 最 多 的 标签 并 不 唯一 时 ,随机 选择 一 个 赋值 即 可 。 

由 于 该 算法 简单 易 实现 ,算法 执行 时 间 短 ,复杂 度 低 且 具有 很 好 的 可 扩展 性 ,引起 了 国 
内 外 学 者 的 关注 ,并 将 其 广泛 地 应 用 到 多 媒体 信息 分 类 .虚拟 社区 挖掘 等 领域 中 。 

5. Spark 

Spark 是 加 州 大 学 伯克利 分 校 的 AMP 实验 室 所 开源 的 类 Hadoop MapReduce 的 通用 
并 行 框 架 。Spark 拥有 MapReduce 所 具有 的 优点 ,但 不 同 于 MapReduce 的 是 Job 中 间 输 出 
结果 可 以 保存 在 内 存 中 ,从 而 不 再 需要 读 写 HDFS, 因 此 Spark 能 更 好 地 适用 于 数据 挖掘 与 
机 器 学 习 等 需要 迭代 的 MapReduce 的 算法 。Spark 程序 总 共有 Local, Standalone, Spark 
on Yarn,Spark on Mesos 四 种 运行 模式 。 这 些 运行 模式 尽管 表面 上 看 起 来 差异 很 大 ,但 总 
体 上 来 说 ,都 基于 一 个 相似 的 工作 流程 。 这 四 种 运行 模式 本 质 上 都 是 将 Spark 的 应 用 分 为 
任务 调度 和 任务 执行 两 个 部 分 ,具体 执行 框架 如 图 12-6 所 示 。 由 图 12-6 可 以 看 到 ,所 有 的 
Spark 应 用 程序 都 离 不 开 SparkContext 和 Executor 两 部 分 ,Executor 负责 执行 任务 ,运行 
Executor 的 机 器 称 为 Worker 节点 ,SparkContext 由 用 户 程序 启动 ,通过 资源 调度 模块 和 
Executor 通信 。 


Worker Node 


Executor | Cache 


Task 


Task 


Driver Program 


SparkContent 


Cluster Manager 


Worker Node 


Executor | Cache 


Task | | Task 


图 12-6 Spark 应 用 执行 框架 图 


6. Spark GraphX 

GraphX Æ Spark 中 重要 子 项 目 之 一 , 它 利 用 Spark 为 计算 引擎 ,实现 了 大 规模 图 计算 
的 功能 ,并 提供 了 类 似 Pregel?? 的 编程 接口 。 具 体 来 说 ,GraphX 是 一 些 常 用 图 算法 在 
Spark 上 的 并 行 化 实现 ,并 提供 了 丰富 的 API 编程 接口 供 开 发 者 调用 。 许 多 图 算法 都 是 一 
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些 复杂 机 器 学 习 算法 的 基础 ,在 很 多 应 用 场景 下 均 有 广泛 运用 。 但 在 海量 数据 和 大 数据 背 
景 下 , 当 图 的 规模 达到 一 定 程度 后 ,单机 很 难 解决 图 计算 问题 ,因此 需要 将 算法 并 行 化 ,在 分 
布 式 集群 上 进行 大 规模 图 处 理 。 目 前 ,比较 成 熟 的 方案 中 就 有 GraphX 和 GraphLab55 等 
大 规模 图 计算 框架 。 其 中 ,GraphX 自从 诞生 之 日 起 ,就 凭借 其 强大 的 图 数据 处 理 能 力 在 工 
业界 得 到 了 广泛 的 应 用 。 下 面 主要 从 GraphX 的 架构 存储 策略 和 基本 操作 三 个 方面 介绍 
GraphX。 

1) GraphX 架构 

GraphX 的 整体 架构 可 以 分 为 存储 和 原 语 层 、 接 口 层 以 及 算法 层 三 个 组 成 部 分 ,具体 架 
构 如 图 12-7 所 示 。 


[ PageRank | {Connected Components | ~ | [Triangle Count 
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图 12-7 GraphX 架构 示意 图 


存储 和 原 语 层 : 这 一 层 中 Graph 类 是 整个 GraphX 架构 的 核心 类 ,内 部 含有 
VertexRDD、EdgeRDD 的 引用 。GraphImpl 类 是 Graph 类 的 子 类 ,其 内 部 实现 了 基本 的 图 
操作 ,如 对 顶点 、 边 的 Map 操作 以 及 求 子 图 等 。 
接口 层 : 在 底层 RDD 的 基础 之 上 实现 了 Pregel 模型 和 BSP 模式 的 计算 接口 。 
算法 层 : 该 层 基于 接口 层 提供 的 Pregel 接口 实现 了 一 些 常用 的 图 算法 。 具 体 包括 
PageRank, TriangleCount, ConnectedComponents 等 算法 。 
2) GraphX 存储 策略 
在 一 些 和 图 有 关 的 企业 级 应 用 中 , 待 解 决 问题 所 涉及 的 图 的 规模 一 般 很 大 ,上 百 万 个 项 
点 的 情况 非常 常见 。 如 果 要 对 一 些 知名 的 社交 网 络 如 Facebook, Twitter 等 进行 图 分 析 的 
话 , 所 对 应 图 的 规模 可 以 达到 几 亿 个 顶点 5259 。 为 了 应 对 如 此 大 规模 的 数据 和 加 快 处 理 速 
度 ,必须 将 图 以 分 布 式 的 方式 进行 存储 和 处 理 。 P 
图 的 分 布 式 存储 策略 大 致 可 分 为 两 种 : 边 分 
H Cedge cut) 和 点 分 割 (vertex cut) ,这 两 种 存储 策 Q 7 - 
略 的 示意 图 如 图 12-8 所 示 。 G 
早期 的 图 计算 框架 大 多 采用 边 分 割 存储 策略 ， Edge Cut Vertex Cut 
而 GraphX 的 设计 者 认识 到 现实 世界 中 的 大 规模 图 12-8 ”图 的 两 种 分 布 式 存储 策略 
图 一 般 都 是 边远 远 多 于 点 的 图 ,所 以 GraphX 采用 
点 分 割 存储 策略 。 这 种 策略 的 好 处 在 于 能 够 减少 网 络 传输 和 存储 开销 。 具 体 实现 是 将 边 放 
到 集群 中 各 个 顶点 存储 ,而 在 进行 数据 交换 时 ,将 点 在 各 个 机 器 之 间 广 播 进行 传输 。 
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在 边 已 经 在 集群 上 分 区 和 存储 的 情况 下 ,大 规模 并 行 图 计算 的 关键 问题 就 变 成 了 如 何 
将 点 的 属性 连接 到 相应 的 边 。GraphX 对 于 该 问题 的 处 理 方法 是 在 集群 上 移动 传播 点 的 属 
性 数据 。 由 于 每 个 分 区 仅 存储 所 有 边 中 的 一 部 分 ,因此 每 个 分 区 并 不 需要 获得 所 有 点 的 属 
性 ,为 此 GraphX 内 部 维持 一 个 路 由 表 (routing table) ,这 样 当 需要 广播 点 的 数据 到 需要 这 
个 点 的 边 的 所 在 分 区 时 ,就 可 以 通过 路 由 表 映 射 , 从 而 将 需要 的 点 属性 传输 到 指定 的 边 分 
区 。 点 分 割 存储 策略 的 具体 示意 图 如 图 12-9 所 示 。 
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图 12-9 GraphX 点 分 割 存储 策略 示意 图 


由 图 可 知 , 对 于 处 在 分 割 线 上 的 点 A.D, 在 相应 的 路 由 表 中 都 记录 了 两 个 分 区 ,而 对 于 
点 B.C、E、F, 相 应 的 路 由 表 中 仅 需 记录 点 本 身 所 在 分 区 即 可 。 点 分 割 存 储 策略 中 , 边 不 会 
被 分 割 ,因此 两 个 分 区 合并 刚好 是 所 有 边 的 集合 ,不 存在 完 余 的 情况 。 

点 分 割 存储 策略 的 好 处 是 在 边 的 存储 上 没有 元 余数 据 , 而 且 对 于 某 个 点 与 其 邻居 的 交 
互 操 作 , 只 要 满足 交换 律 与 结合 律 即 可 。 下 面 以 求 顶点 的 邻接 顶点 的 权重 和 这 个 具体 问题 
为 例 进行 说 明 , 该 问题 显然 可 以 在 不 同 的 顶点 同时 进行 运算 ,最 后 汇总 每 个 顶点 的 运行 结 
果 , 网 络 开销 较 小 。 点 分 割 存储 策略 带 来 的 代价 是 每 个 项 点 属性 可 能 需要 宛 余 存储 多 份 , 且 
在 需要 更 新 点 数据 时 ,会 有 数据 同步 开销 。 

3) GraphX 基本 操作 

就 像 Spark 为 RDD 提供 了 一 系列 基本 操作 (如 map, filter, reduce) — FÉ, GraphX 也 提 
供 了 许多 针对 图 数据 的 操作 。 这 些 操作 按照 操作 对 象 或 功能 可 大 致 分 为 属性 运算 、 结 构 运 
算 、 邻 接 聚 集 操 作 、 缓 存 操作 以 及 Pregel API 等 部 分 。 详 细 的 操作 列表 可 参考 图 12-10 和 
图 12-11, 

关于 这 些 操作 的 具体 含义 和 使 用 规则 ,大 多 可 以 从 操作 的 名 字 以 及 图 中 的 注释 推断 出 ， 
如 inDegrees 操作 就 是 一 个 计算 所 有 点 入 度 的 一 个 函数 。 这 些 函 数 的 使 用 可 以 大 大 减少 开 
发 者 的 工作 量 。 本 案例 也 将 基于 这 些 提 供 的 基本 操作 完成 对 宏基 因 组 基因 图 聚 类 的 目的 ， 
具体 实现 方法 将 在 之 后 详细 描述 。 
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//** Summary of the functionality in the property graph */. 
class Graph[VD, ED] { 
// Information about the Graph 
val numEdges: Long 
val numVertices: Long 
val inDegrees: VertexRDD[Int] 
val outDegrees: VertexRDD[Int] 
val degrees: VertexRDD[Int] 
AN Views of the graph as collections 一 -一 E EWao)— 1 | A 
val vertices: VertexRDD[VD] 
val edges: EdgeRDD[ED] 
val triplets: RDD[EdgeTriplet[VD, ED]] 
// Functions for caching graphs 
def persist(newLevel: Storagelevel = Storagelevel.MEMORY ONLY): Graph[VD, ED] 
def cache(): Graph[VD, ED] 
def unpersistVertices(blocking: Boolean = true): Graph[VD, ED] 
AI Change the partitioning heuristic 
def partitionBy(partitionStrategy: PartitionStrategy): Graph[VD, ED] 
AN Transform vertex and edge attributes 
def mapvertices[VO2](map: (VertexID, VD) => VD2): Graph[VO2, ED] 
def mapEdges[ED2] (map: Edge[ED] => ED2): Graph[VD, ED2] 
def mapEdges[ED2](map: (PartitionID, Iterator [Edge[ED]]) 一 Iterator[ED2]): Graph[VD, ED2] 
def mapTriplets[ED2](map: EdgeTriplet[VO, ED] 一 ED2): Graph[VD, ED2] 
def mapTriplets[ED2](map: (PartitionID, Iterator[EdgeTriplet[VD, ED]]) — TIterator[ED2]) 
= Graph[VD, ED2] 
// Modify the graph structure 一 一 一 
def reverse: Graph[VD, ED] 
def subgraph( 
epred: EdgeTriplet[VD,ED] 一 Boolean = (x — true), 
vpred: (VertexID, VD) 一 Boolean = ((v, d) 一 true)) 
= Graph[VD, ED] 
def mask[VD2, ED2](other: Graph[VD2, ED2]): Graph[VD, ED] 
def groupEdges(merge: (ED, ED) => ED): Graph[VO, ED] 


12-10 Graph 基本 操作 详细 列表 (一 ) 


// Join RODs with the graph 
def joinVertices[U](table: RDD[(VertexID, U)])(mapFunc: (VertexID, VD, U) => VD): Graph[VD, ED] 
def outerJoinVertices[U, VD2] (other: RDO[(VertexID, U)]) 
(mapFunc: (VertexID, VD, Option[U]) => woz) 
: Graph[VO2, ED] 
// Aggregate information about adjacent triplets 
def collectNeighborIds(edgeDirection: EdgeDirection): VertexRDD[Array[VertexID]] 
def collectNeighbors(edgeDirection: EdgeDirection): VertexRDO[Array[(VertexID, VD)]] 
def aggregateMessages[Msg: ClassTag]( 
sendMsg: EdgeContext[VD, ED, Msg] => Unit, 
mergeMsg: (Msg, Msg) 一 Msg, 
tripletFields: TripletFields = TripletFields. all) 
3 VertexRDD[A] 
// Iterative graph-parallel computation 
def pregel[A](initialMsg: A, maxIterations: Int, activeDirection: EdgeDirection)( 
vprog: (VertexID, VD, A) => VD, 
sendMsg: EdgeTriplet[VD, ED] 一 Iterator[(VertexID,A)], 
mergeMsg: (A, A) => A) 
: Graph[VD, ED] 


AN Basic graph algorithms 


def pageRank(tol: Double, resetProb: Double = 0.15): Graph[Double, Double] 
def connectedComponents(): Graph[VertexID, ED] 

def triangleCount(): Graph[Int, ED] 

def stronglyConnectedComponents(numIter: Int): Graph[VertexID, ED] 


12-11 Graph 基本 操作 详细 列表 (二 ) 
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12.1.2 基本 需求 


本 案例 来 源 于 国防 科学 技术 大 学 计算 机 学 院 与 深圳 华 大 基因 的 合作 项 目 , 深 圳 发 改 委 项 
目 “ 高 技术 服务 业 研发 及 产业 化 专项 (专题 二 : 信息 技术 服务 ): 面向 PB 级 生物 基因 数据 处 理 
的 国民 健康 服务 平台 ”, 国 家 自然 科学 基金 委员 会 一 广东 省 人 民政 府 大 数据 科学 研究 中 心 项 
目 : 基于 天 河 二 号 超级 计算 机 的 智慧 医学 与 健康 大 数据 平台 研究 与 构建 。 在 该 项 目 中 , 华 大 
基因 研究 院 不 仅 提 出 了 很 多 其 主流 业务 线 上 吸 待 解决 的 实际 问题 ,而 且 提 供 了 丰富 的 实验 数据 。 

本 案例 优化 的 MGS 聚 类 方法 由 Nielsen 于 2014 年 发 表 在 (Identification and assembly 
of genomes and genetic elements in complex metagenomic samples without using reference 
genomes)05 一 文中 ,这 也 是 华 大 基因 目前 广泛 使 用 的 宏基 因 组 基因 聚 类 方法 ,其 中 MGS 
代表 metagenomic species ,文中 用 MGS 表示 理想 的 基因 聚 类 结果 。 这 种 方法 的 具体 流程 
图 如 图 12-12 所 示 。 
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图 12-12 MGS 聚 类 流程 图 


从 图 12-12 给 出 的 流程 可 知 ,我 们 可 大 致 将 MGS 聚 类 方法 分 为 两 个 步骤 。 第 一 个 步骤 
通过 测序 和 组 装 等 工作 得 到 基因 目录 的 丰 度 分 布 表 , 具 体 可 用 矩阵 来 刻画 ,如 图 12-13 所 
示 。 和 矩阵 每 一 行 代表 一 个 基因 ,每 一 列 代 表 一 个 样本 的 情况 .矩阵 中 每 一 个 数值 表示 该 基因 
在 指定 样本 中 匹配 到 的 reads 数目 。 

第 二 个 步骤 就 是 把 基因 目录 的 丰 度 分 布 表 中 每 一 个 基因 用 向 量 的 形式 进行 刻画 ,然后 
对 这 些 向 量 进行 聚 类 ,具体 采用 的 聚 类 方法 为 Canopy RAHAT, Canopy 聚 类 算法 适 
用 于 对 高 维 数据 的 大 数据 集 进行 聚 类 , 它 不 需要 事先 指定 聚 类 的 数量 ,通常 可 以 将 Canopy 
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Individuals 
Genes Ind 1 Ind2 Ind 3 Ind 4 Ind 5 Ind 6 Ind 7 
1 0 36 2 0 43 106 1250 
0 27 193 0 44 103 8 
3 0 3l 0 0 0 0 0 
4 132 59 282 1 0 0 0 
5 115 0 0 1 0 29 2 
6 90 783 26 0 2 0 0 
7 104 1616 0 0 0 0 5 
8 0 82 0 0 0 0 0 
9 2 0 0 0 0 0 0 
10 23 239 1302 10 0 190 0 
ll 30 183 900 13 0 172 0 
12 27 228 1120 6 0 324 0 
13 103 0 0 0 0 0 0 
14 0 30 269 0 0 0 0 
15 0 0 0 0 0 95 0 
16 1250 6002 468 607 492 141 8023 
17 0 0 0 0 0 0 0 
18 0 9 108 0 0 55 0 
19 0 0 0 3 0 0 0 
3300000 0 36 2 0 43 106 1250 


图 12-13 基因 目录 的 丰 度 分 布 表 


算法 与 k-means 算法 相 结合 ,先进 行 Canopy 算法 ,然后 把 得 到 的 聚 类 中 心 点 作为 k-means 
算法 的 初始 中 心 点 ,这 样 就 可 以 解决 k-means 算法 中 & 值 选择 以 及 初始 中 心 点 选择 的 问题 ， 
从 而 减少 k-means 算法 中 的 迭代 次 数 ,同时 提高 聚 类 准确 性 。 

Canopy 算法 的 具体 步骤 描述 如 下 : 随即 在 数据 集中 选择 数据 点 A 作为 聚 类 中 心 ,计算 
所 有 其 他 点 与 A 之 间 的 距离 ,将 所 有 与 A 之 间距 离 小 于 阔 值 T 的 数据 点 称 为 一 个 Canopy 
( 即 一 个 类 ) ,而 距离 小 于 阅 值 To 的 数据 点 不 能 再 成 为 聚 类 中 心 ( 即 不 会 再 被 随机 选 为 聚 类 
中 心 ) ,然后 再 在 剩余 的 数据 集中 选择 数据 点 B 作为 聚 类 中 心 ,重复 上 述 过 程 ,直到 所 有 的 
点 都 被 至 少 一 个 Canopy MA w. HP T; T; ,是 在 聚 类 之 前 给 点 的 阅 值 。 另 外 ,Canopy 
算法 允许 得 到 的 聚 类 结果 有 交集 ,这 表示 某 个 点 可 以 同时 属于 多 个 Canopy。 具 体 聚 类 结果 
可 用 图 12-14 表示 。 可 以 看 出 ,有 些 聚 类 中 心 ( 如 A) 自 己 本 身 就 属于 多 个 Canopy. 


12-14 Canopy 聚 类 示意 图 
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在 使 用 MGS 聚 类 方法 解决 宏基 因 组 聚 类 问题 的 过 程 中 ,我们 遇 到 了 问题 : 当 基因 的 数 
量 级 达到 百 万 时 ,运用 MGS 聚 类 方法 解决 宏基 因 组 聚 类 问题 时 ,会 遇 到 大 内 存 的 问题 , 即 
计算 机 内 存 无 法 存放 由 算法 产生 的 中 间 结 果 , 同 时 也 有 运行 时 间 过 长 的 问题 。 本 节 案 例 的 
基本 需求 正 是 要 解决 这 些 问 题 。 


12.2 问题 分 析 与 设计 方案 


12.2.1 问题 分 析 


针对 面临 的 具体 问题 ,最 开始 的 解决 方案 是 将 MGS 聚 类 程序 的 关键 步骤 利用 Spark 
平台 并 行 化 ,确实 收 到 了 一 定 的 效果 ,但 程序 整体 性 能 并 没有 实质 性 的 提升 ,其 具体 问题 如 

图 12-15 所 示 。 
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图 12-15 MGS 聚 类 问题 规模 随 迭 代 次 数 变化 


图 12-15 中 横 坐 标 表 示 MGS 聚 类 算法 核心 代码 的 迭代 次 数 , 纵 坐标 表示 整个 聚 类 问题 
的 规模 。 由 图 可 知 刚 开始 进行 聚 类 时 ,问题 规模 下 降 很 快 ,很 多 点 都 被 生成 的 Canopy fr E 
盖 , 但 随 着 迭代 次 数 的 增加 ,问题 规模 的 下 降 速度 也 降低 ,其 原因 在 于 由 于 Canopy 聚 类 方 
法 允许 一 个 点 同时 属于 多 个 Canopy, 后 面 循环 所 生成 的 Canopy 中 的 点 绝 大 部 分 已 经 被 之 
前 生成 的 Canopy 所 覆盖 ,这 样 就 导致 程序 效率 越 来 越 低 。 男 外 ,每 次 生成 Canopy 的 过 程 

会 计算 中 心 与 所 有 其 他 点 之 间 的 距离 ,而且 这 个 中 间 结 果 不 会 保存 下 来 (实际 上 是 无 法 保 
存 , 结 果 所 占 空 间 太 大 ) ,这 样 就 很 有 可 能 导致 两 个 点 之 间 的 距离 重复 计算 。 

正 是 由 于 上 述 问题 的 存在 ,本 节 案 例 提 出 了 将 整个 宏基 因 组 基因 聚 类 问题 划分 为 相似 
基因 对 计算 和 基于 图 进行 宏基 因 组 基因 聚 类 两 个 子 问题 的 方法 。 其 中 相似 基因 对 计算 问题 
的 目标 是 依据 基因 目录 的 丰 度 分 布 表 构 造 出 基因 的 图 的 表现 形式 ,图 中 每 一 个 顶点 表示 一 
个 基因 ,每 一 条 边 表示 两 个 基因 之 间 的 皮尔 逊 相关 系数 ,这 样 构造 出 的 图 是 完全 图 。 但 实际 
并 不 可 行 , 因 为 当 基因 数目 为 百 万 时 ,构造 出 的 完全 图 的 边 的 数量 将 达到 102 数 量 级 ,是 不 
可 接受 的 。 同 时 构造 完全 图 的 方案 也 是 没有 必要 的 ,因为 当 两 个 基因 之 间 皮 尔 逊 相关 系数 
为 0 时 ,表示 这 两 个 基因 之 间 没有 线性 关系 ,显然 就 可 以 认为 这 两 个 基因 之 间 没有 边 ,同样 ， 
当 两 个 基因 之 间 皮 尔 逊 相关 系数 比较 小 时 ,同样 可 以 忽略 这 条 边 。 论 文 (Identification and 


第 12 章 基于 Spark 的 海量 宏基 因 组 聚 类 问题 分 析 计 算 


assembly of genomes and genetic elements in complex metagenomic samples without using 
reference genomes) 的 做 法 ,两 个 基因 之 间 皮 尔 逊 相关 系数 不 小 于 0. 9 时 认为 这 两 个 基因 有 
较 好 的 线性 相关 性 ,在 设想 的 基因 完全 图 中 ,只 保留 皮尔 逊 相关 系数 不 小 于 0. 9 的 边 ,其余 
的 边 全 部 忽略 ,这 样 就 得 到 进行 宏基 因 组 基因 图 聚 类 问题 的 结果 。 

通过 上 述 描 述 , 相 似 基因 对 计算 问题 实质 上 是 一 个 典型 的 APSS(All Pairs Similarity 
Search) 问 题 。 这 一 问题 是 在 2007 年 发 表 的 文章 (Scaling Up All Pairs Similarity Search) 
中 提出 的 ,问题 的 精确 描述 如 下 : 

Given a set of vectors 了 一 {uyuzy v, ) of fixed dimensionality m. a similarity 
function sim Cr. y), and a similarity threshold ¢, we wish to compute the set of all pairs 
(x,y) and their similarity values such sim(x,y) that z. y € V and simCr y) Zt. 

这 里 每 一 个 基因 用 向 量 表示 ,基因 之 间 的 相似 性 度量 为 皮尔 逊 相关 系数 ,而 目标 是 找 出 
所 有 皮尔 逊 相关 系数 不 小 于 0. 9 的 基因 对 。 问 题 的 具体 描述 可 用 图 12-16 形象 表示 。 本 节 
案例 可 以 也 看 作 Spark 平台 下 APSS 问题 的 解决 方案 。 


图 12-16 APSS 问题 描述 


许多 实际 生活 中 的 应 用 都 需要 解决 APSS 问题 ,例如 网 页 搜索 .协同 过 滤 .重复 文档 检 
测 等 。 这 一 问题 的 解决 方案 也 有 很 多 ,其 中 最 有 效 也 是 最 常用 的 串 行 解决 方案 是 利用 倒 排 
索引 (Inverted Index) 来 解决 ,这 也 是 上 面 提 到 的 文章 给 出 的 解决 方案 。 

倒 排 索引 ,也 常常 被 称 为 反 向 索引 、 置 入 档案 或 反 向 档案 ,是 一 种 索引 方法 ,被 用 来 存储 
在 全 文 搜索 下 某 个 单词 在 一 个 文档 或 者 一 组 文档 中 的 存储 位 置 的 映射 。 它 是 文档 检索 系统 
中 最 常用 的 数据 结构 。 下 面 给 出 利用 倒 排 索引 解决 APSS 问题 的 具体 算法 ,如 图 12-17 
Bra. 


Att-Pairs-O( V. 1) FIND-MATCHES-O(x , /), t) 
0co A - empty map ome Vector id to weight 
Lyly ed A) Meo 
for each x € V do for each i s.t. x[i] >0 do 
O € OU Finp-MarcHes-O(x. D, Dui 1) for each (v. v[;]) € 1; do 
for each i s4. x[/] >0 do AD] A[] + x] vL] 
Lelo {xli for each y with non-zero weight in A do 
return O if Aly] 27 then 
MEM ty ADD} 
return Af 


图 12-17 解决 APSS 问题 的 倒 排 索引 算法 
上 述 算法 和 一 些 基 于 此 算法 的 改进 都 能 很 好 地 解决 APSS 问题 ,但 当 我 们 处 理 较 大 的 
数据 集 时 , 串 行 算法 的 运行 时 间 会 变 得 很 长 。 此 外 ,存储 倒 排 索引 的 数据 结构 的 空间 也 很 可 
能 超出 可 用 内 存 的 大 小 。 
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12.2.2 设计 方案 


针对 以 上 问题 ,本 节 案 例 设计 的 解决 方案 如 下 : 

CD 基于 分 布 式 计算 框架 MapReduce 开发 并 行 算法 来 解决 APSS 问题 ,将 MGS HEE 
程序 利用 Spark 平台 并 行 化 。 

(2) 使 用 局 部 敏感 哈 希 方法 加 速 计算 过 程 , 先 通过 哈 希 值 验证 候选 基因 对 ,提前 过 滤 掉 
不 相似 的 基因 对 , 减 小 皮尔 逊 相关 系数 的 计算 量 , 从 而 加 速 相似 基因 对 算法 。 

(3) 在 相似 基因 对 计算 结果 的 基础 上 ,利用 Spark GraphX 中 的 Graph 类 的 工厂 方法 
fromEdges 生成 基因 图 。 

(4) 对 于 生成 的 基因 图 ,利用 GraphX 提供 的 基本 操作 对 图 的 一 些 基本 性 质 进 行 分 析 ， 
包括 顶点 的 度 以 及 图 的 连通 性 分 析 。 

(5) 在 进行 了 连通 性 分 析 的 基础 上 ,对 得 到 的 一 些 复杂 连通 部 分 ,也 可 以 看 作 是 原 图 的 
一 些 子 图 ,利用 社区 发 现 算法 中 的 标签 传播 算法 进行 进一步 聚 类 ,最 后 进行 可 视 化 并 分 析 


12.3 ”实现 方法 


12.3.1 基于 Spark 的 相似 基因 对 问题 的 实现 


在 本 节 案 例 中 ,由 于 Spark 是 一 个 分 布 式 计算 平 台 , 因 此 基因 目录 的 丰 度 分 布 表 以 
RDD(Resilient Distributed Datasets)559 , 即 弹性 分 布 式 数据 集 的 数据 格式 分 布 在 Spark 集 
群 的 内 存 中 。 其 次 ,本 节 案 例 中 默认 采用 Spark on Yarn 运行 模式 , 即 Spark 集群 使 用 Yarn 
平台 进行 资源 管理 和 任务 调度 ,也 就 是 图 12-6 中 的 Cluster Manager 对 应 为 Yarn, 

接 下 来 使 用 Scala 语言 和 伪 代 码 描 述 基因 相似 对 计算 问题 在 Spark 平台 下 的 具体 实 
现 。 刚 开始 时 ,输入 数据 集 , 即 基因 目录 的 丰 度 分 布 表 存 储 在 HDFS 中 ,通过 textFile 函数 
读 取 文 件 并 以 RDD 的 形式 分 布 式 存储 在 集群 机 器 的 内 存 中 ,具体 数据 类 型 为 RDDLPoint]， 
其 中 Point 是 自己 定义 好 的 一 个 case class, 用 来 封装 输入 文件 中 的 基因 。 类 Point 的 具体 
定义 如 下 : 


//APSS. scala 
caseclass Point ( index: Long, data: SparseVector, sum: Double, preComputed: Double, 
fingerPrint: Array[Byte]) 


其 中 ,index 表示 基因 的 标号 ,data 用 来 存储 表示 基因 的 向 量 ,而 且 因 大 部 分 基因 都 具有 稀 
朴 的 向 量 表现 形式 ,所 以 我 们 把 data 的 数据 结果 设置 为 SparseVector, sum 表示 向 量 所 有 
元 素 的 和 ,preComputed 是 一 个 提前 计算 好 ,在 计算 皮尔 逊 相关 系数 时 会 用 到 的 数据 值 , 最 
后 fingerPrint 和 下 一 小 节 将 要 介绍 的 利用 LSH 加 速 计算 过 程 有 关 , 是 一 个 存储 哈 希 值 的 
数组 。 

基因 相似 对 计算 问题 需要 遍历 整个 数据 集 ,针对 数据 集中 每 一 个 基因 , 找 出 所 有 和 该 基 
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因 皮 尔 逊 相关 系数 不 小 于 0. 9 的 基因 ,构成 基因 对 加 入 到 最 终结 果 中 。 考 虑 到 数据 分 布 式 
存储 的 特点 ,本 节 案 例 采 取 部 分 收集 部 分 广播 的 策略 遍历 数据 集 。 具 体 方法 可 描述 为 : 首 
先 按 照 基因 的 index 对 数据 集 进行 分 组 ,例如 以 100K 为 单位 ,那么 index 范围 在 0 一 100K 
的 基因 都 被 分 为 第 一 组 ,index 范围 在 100~ 200K 内 的 基因 都 被 分 为 第 二 组 ,以 此 类 推 。 然 
后 按照 分 组 的 顺序 将 指定 组 基因 用 collect 算 子 收集 到 Driver 上 ,再 利用 Spark 提供 的 
broadcast 方法 广播 到 所 有 的 Worker 上 ,这 样 可 以 保证 每 个 Worker 上 都 有 一 份 该 组 基因 。 
最 后 计算 该 组 基因 与 Worker 本 地 存储 的 基因 的 相似 性 , 找 出 所 有 相似 基因 对 即 可 。 在 具 
体 实现 时 ,为 避免 重复 计算 ,可 以 利用 基因 的 index, 始 终 保 证 相似 基因 对 第 一 个 基因 的 
index 小 于 第 二 个 基因 的 index。 这 整个 过 程 可 用 图 12-18 所 示 的 伪 代 码 来 描述 。 


Algorithm 1 SPARK-APSS(V 1j 
Input: V:DaieSet, EThreshold 


27 return 5 


图 12-18 基于 Spark 平台 的 APSS 问题 解决 方法 伪 代 码 


伪 代 码 中 for all Executer 是 表示 该 循环 内 的 语句 同时 在 Spark 集群 中 所 有 该 程序 对 
应 的 Executer 上 执行 。 此 外 ,somePoints 和 S 的 实际 生成 都 是 利用 Spark 提供 的 collect 算 
子 实现 , 伪 代 码 将 其 描述 为 集合 并 运算 只 是 便于 阅读 理解 。 


12.3.2 利用 LSH 加 速 相似 基因 对 算法 


在 Spark 平台 实现 了 相似 基因 对 计算 问题 的 基础 上 ,利用 LSH 对 整个 计算 过 程 进行 加 
速 的 整个 过 程 可 表述 为 下 面 三 个 步骤 : 

1. 哈 希 值 的 生成 

先 随 机 生成 5xXr 个 随机 向 量 ,其 中 向 量 的 维度 和 表示 基因 的 向 量 的 维度 一 样 ,向 量 的 
每 一 维 数据 都 从 高 斯 分 布 N(0,1) 采 样 得 到 ,b、r 的 具体 意义 参考 上 文 提 到 的 banding HA. 

接 下 来 对 数据 集中 每 一 个 向 量 , 将 其 与 生成 的 2Xr 个 随机 向 量 分 别 做 点 积 运算 后 再 取 
符号 , 即 点 积 不 小 于 0 时 取 1, 点 积 小 于 0 时 取 0, 这 样 每 个 向 量 就 得 到 一 个 与 之 相对 应 的 长 
度 为 2Xr 的 bits 串 , 即 该 向 量 的 哈 希 值 。 上 一 小 节 提 到 用 类 Point 的 fingerPrint 域 来 存储 
向 量 的 哈 希 值 ,具体 存储 形式 为 字 节 数组 ,也 就 是 说 ,banding 技术 中 的 固定 为 80 字 节 由 


447 


448 


云 计算 与 大 数据 技术 理论 及 应 


8 位 构成 ) ,数组 的 长 度 即 为 banding 技术 中 的 5 的 取 值 。 具体 代 码 如 下 所 示 : 


//APSS7 - LSH. scala 
.partitionBy(new HashPartitioner(PARTITION NUM)).map{ p => 
val v = Vectors.dense(p. 2. l.toArray.map(x =>x — p. 2. 2/ p. 2. l.size)) 
val hashValues = new Array[Int](numHashTables) 
vari - 0 
while(i < numHashTables)( 
varj - 0 
while(j < numHashFunc) { 
hashValues(i) = hashValues(i) << 1 
if(dot(hashFunctions(i)(j), v) > 0) 
hashValues(i) += 1 
j+=1 
} 
i+=1 
} 
Point(p. 1, p._2._1, p._2._2, p. 2. 3, hashValues.map( .toByte)) 


2. 找 出 候选 相似 基因 对 

这 一 步骤 主要 通过 LSH 验证 所 有 基因 对 ,认为 同一 个 桶 内 的 基因 是 候选 相似 基因 对 。 
具体 做 法 为 : 对 于 基因 对 (z,y) ,其 中 二 y, 如 果 z 和 y 在 5b 组 喻 希 值 中 只 要 有 一 组 完全 相 
Fr} CBN Byte 表示 的 数值 相同 ) ,就 认为 基因 对 (zx,y) 为 候选 相似 基因 对 。 实 质 上 这 一 步 也 可 
以 看 作 是 个 过 滤 操 作 , 直 接 认 为 5 组 哈 希 值 均 不 相同 的 基因 对 (zx,y) 不 相似 ,就 不 用 再 计算 
该 基因 对 的 皮尔 逊 相关 系数 ,从 而 减少 计算 量 。 

但 相 比 不 使 用 LSH 加 速 的 情况 ,进行 哈 硕 值 验证 这 一 步 也 明显 增加 了 计算 量 。 因 此 ， 
要 想 程序 整体 性 能 有 所 提升 ,必须 确保 过 滤 掉 的 基因 对 的 皮尔 逊 相关 系数 所 需 的 计算 量 超 
过 计算 LSH 哈 希 值 以 及 利用 LSH 进行 验证 的 计算 量 , 这 就 需要 哈 希 值 计算 和 验证 这 一 步 
相对 皮尔 逊 相关 系数 计算 更 轻 量 级 ,也 需 保 证 过 滤 掉 的 基因 对 占 所 有 基因 对 一 定 的 比例 。 

另外 ,在 实际 操作 中 发 现 : 进行 哈 希 值 验 证 时 ,如 果 采 取 工 和 > 在 b 组 喻 希 值 中 只 要 有 
一 组 完全 相同 ,就 认为 基因 对 (z,y) 为 候选 相似 基因 对 的 策略 ,整体 过 滤 效 果 并 不 是 太 明 
显 ,这 一 点 在 后 面 的 实验 结果 可 以 看 到 。 

针对 上 述 问题 ,我 们 对 哈 希 值 验证 方法 做 了 如 下 的 改进 : 只 有 当 基因 对 (z,y) 的 0 组 哈 
希 值 中 有 超过 k(& 三 1) 组 完全 相同 时 , 才 认 为 基因 对 (xz,y) 为 候选 相似 基因 对 。 其 余 情 况 均 
认为 基因 对 (z,y) 不 相似 。 显 然 ,. 最 开始 的 验证 方法 就 是 扩展 方法 中 & 值 取 1 时 的 情况 。 
通过 适当 调整 人 值 ,我 们 发 现 可 以 在 保证 计算 精度 仍然 很 高 的 情况 下 ,大 大 减少 候选 相似 基 
因 对 的 数量 ,从 而 进一步 减少 计算 量 % ,这 点 在 下 文 的 实验 测试 部 分 可 以 得 到 验证 。 具 体 
代码 如 下 所 示 : 


//APSS7 - LSH. scala 

def hashFilter(hl: Array[Byte], h2: Array[Byte]): Boolean = { 
var count = 0 
vari - 0 
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while(i < hl. length) { 
if(hi(i) == h2(i))( 
count += 1 
if(count >= 3) // 超 过 k(k 之 3) 组 完全 相同 时 


return true 


3. 验证 候选 相似 基因 对 

由 于 通过 哈 希 值 验 证 得 到 的 候选 相似 基因 对 并 不 一 定 满足 皮尔 逊 相关 系数 不 小 于 0.9 
的 条 件 , 因 此 需要 这 一 步 对 所 有 候选 相似 基因 对 进行 验证 ,筛选 出 真正 符合 条 件 的 基因 对 ， 
同时 过 滤 掉 False Positive 的 情况 。 具 体 方法 就 是 直接 验证 基因 对 的 皮尔 逊 相关 系数 是 否 
不 小 于 0. 9。 

另外 ,具体 实现 时 , 找 出 候选 相似 基因 对 和 验证 是 同时 进行 的 , 即 满足 喻 希 值 验证 的 条 
件 之 后 ,直接 计算 皮尔 逊 相关 系数 进行 验证 ,而 不 是 找到 所 有 候选 相似 基因 对 之 后 再 进行 验 
证 。 这 里 分 为 两 个 步骤 是 为 了 便于 描述 与 理解 。 具 体 代码 如 下 所 示 : 


//APSS7 - LSH. scala 
val pairsl = pointsWithHash. filter(_.index>(i-1) * BLOCK SIZE).mapPartitions { iters => 
val points = iters.toArray 
vari- 0 
val results = ArrayBuffer.empty[(Long, Long)] 
while(i < bcSomePoint. value. length) { 
val a = bcSomePoint. value(i) 
varj = 0 
while(j < points. length)( 
if (bcSomePoint. value(i). index < points(j). index 
&& hashFilter(a.fingerPrint, points(j).fingerPrint))( 
val dotProduct = dotSparse(a.data, points(j).data) 
if(dotProduct » 0)( 
val numerator = SIZE * dotProduct — a.sum * points(j).sum 
if(numerator > 0 && numerator / (a. preComputed * points(j).preComputed) >= 0.9) 
// 验 证 基因 对 的 皮尔 逊 相关 系数 是 否 不 小 于 0.9 
results += ((a.index, points(j). index)) 


} 
i += 1 

} 

results. tolterator 
}.collect() 
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最 后 上 述 利用 LSH 加 速 相似 基因 对 计算 的 整个 过 程 可 以 用 如 图 12-19 所 示 的 流程 图 


将 该 基因 对 加 入 结果 集合 中 


图 12-19 LSH 加 速 相似 基因 对 计算 流程 图 


12.3.3 基因 图 的 生成 


由 上 一 章 可 以 得 到 所 有 相似 基因 对 的 计算 结果 ,也 就 是 基因 图 所 有 的 边 , 在 此 基础 之 
上 ,首先 利用 textFile 函数 读 取 HDFS 文件 ,将 所 有 边 以 RDD 的 形式 分 布 在 集群 上 ,然后 直 
接 利用 Graph 类 中 的 工厂 方法 fromEdges 生成 基因 图 ,具体 代码 如 下 所 示 : 


//CC. scala 

val edges: RDD[Edge[Int]] = sc.textFile(params.in, 160).map ( line => 
val parts = line. split('\t') 
Edge(parts(0).toLong, parts(1).toLong, 1) 

} 

val graph = Graph. fromEdges(edges, 1) 


需要 注意 的 是 ,按照 此 方法 得 到 的 图 已 经 忽略 掉 一 些 点 ,设想 某 个 基因 和 所 有 其 他 基因 
的 皮尔 逊 相关 系数 都 小 于 0.9, 也 就 是 说 所 有 相似 基因 对 中 都 不 会 有 该 基因 出 现 ,那么 该 基 
因 自 然 不 会 出 现在 生成 的 基因 图 中 。 所 有 生成 的 基因 图 已 经 自动 筛选 出 所 有 “”* 特 立 独行 ”的 
基因 ,后 文 将 这 类 基因 也 称 为 噪音 基因 。 

其 实 这 一 点 恰恰 是 造成 MGS 效率 低下 的 原因 之 一 ,如 果 某 个 图 所 有 的 点 之 间 都 彼 
此 不 相似 ,那么 MGS 聚 类 迭代 次 数 就 等 于 点 的 个 数 , 而 在 实际 统计 中 发 现 ,数据 集中 
2 082 408 个 基因 中 共有 709 290 个 基因 都 属于 这 类 基因 ,这 表明 MGS 聚 类 方法 的 迭代 次 
数 至 少 为 709 290 次 ,而且 这 709 290 次 聚 类 都 不 会 生成 有 意义 的 聚 类 结果 。 我 们 可 以 把 这 
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些 基因 形象 比喻 为 整个 基因 集合 中 的 噪音 ,实际 可 行 的 方法 必须 有 效 避 开 这 些 品 音 完成 聚 
类 。 而 通过 相似 基因 对 计算 这 一 过 程 ,实际 上 就 已 经 同时 将 这 些 基 因 筛 选 出 来 ,也 正 是 基于 
这 一 点 考虑 ,本 节 案 例 才 将 原本 的 宏基 因 组 聚 类 问题 划分 为 两 个 子 问题 来 进行 讨论 和 解决 。 


12.3.4 图 的 基本 性 质 分 析 


通过 上 一 步 ,整个 图 已 经 分 布 式 存储 在 Spark 集群 内 存 中 。 在 此 基础 上 ,可 以 利用 
GraphX 提供 的 基本 操作 对 图 的 一 些 基 本 性 质 进 行 分 析 , 包 括 顶 点 的 度 以 及 图 的 连通 性 
分 析 。 

通过 这 些 分 析 , 可 以 加 深 对 图 的 整体 情况 以 及 性 质 的 认识 和 了 解 。 其 中 ,图 的 连通 性 分 
析 可 以 看 作 是 一 个 预 聚 类 过 程 : 通过 图 的 连通 性 分 析 可 以 将 由 百 万 基因 构成 的 大 规模 图 拆 
分 成 小 的 子 图 ,而 这 些小 的 子 图 有 些 就 可 以 直接 看 作 是 聚 类 结果 ,例如 完全 子 图 或 者 星 型 子 
图 ,而 对 于 复杂 的 子 图 ,就 可 以 采用 第 三 步 介绍 的 社区 发 现 算法 进行 处 理 。 

将 图 的 连通 性 分 析 结果 作为 基因 图 的 一 个 预 聚 类 过 程 , 不 仅 可 以 将 一 个 复杂 的 大 规模 
问题 转化 为 若干 小 问题 ,同时 还 可 以 直接 将 部 分 连通 性 分 析 结 果 作为 聚 类 结果 ,这 两 个 方面 
都 有 利于 问题 的 简化 。 这 一 点 是 使 用 图 聚 类 方法 特有 的 优势 ,体现 了 分 治 的 思想 。 

一 步 的 实现 代码 也 很 简单 ,具体 如 下 所 示 。 


//CC. scala 
val degrees: VertexRDD[PartitionID] = graph. degrees 
//Run Connected Components 
val CC = graph. connectedComponents(). vertices. join(degrees) 
-map(x => (x._2._1, (x._1, x. 2. 2))).groupByKey().map { x => 
val ccSize = x. 2.size 
val maxDegreeVertice: (VertexId, PartitionID) = 
x. 2.toSeq.sortWith( . 2» . 2).head 
(x. 1, (ccSize, maxDegreeVertice, x. 2.map( . 1))) 
).cache() 


12.3.5 ARRA 


这 一 步 在 进行 了 连通 性 分 析 的 基础 上 ,对 得 到 的 一 些 复杂 连通 部 分 ,也 可 以 看 作 是 原 图 
的 一 些 子 图 ,利用 社区 发 现 算法 中 的 标签 传播 算法 进行 进一步 聚 类 。 标 签 传播 算法 的 算法 
描述 已 经 在 前 文 给 出 ,具体 实现 需要 使 用 GraphX 中 的 Pregel API 来 实现 。Pregel API 需 
要 使 用 者 自己 定义 三 个 函数 ,分 别 为 消息 发 送 函 数 (sendMsg) ,消息 合 并 函数 (mergeMsg)、 
顶点 函数 (vprog)。 在 一 个 超 步 (superstep) 内 ,这 三 个 函数 先后 被 调用 ,完成 顶点 间 的 消息 
传递 和 接受 ,最 终 更 新 顶点 的 属性 。 

在 标签 传播 算法 中 ,消息 发 送 函 数 定义 为 对 每 条 边 的 两 个 顶点 分 别 发 送 顶 点 标签 给 对 
方 ,消息 合并 函数 定义 为 对 接收 到 的 消息 进行 合并 ,完成 对 标签 计数 的 功能 ,顶点 函数 定义 
为 图 标签 为 接收 到 的 消息 中 数量 最 多 的 标签 。 具 体 代码 如 下 : 
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//oxrg/apache/spark/graphx/1ib/LabelPropagation. scala 
/ ** Label Propagation algorithm. * / 
object LabelPropagation { 
def run[VD, ED: ClassTag](graph: Graph[ VD, ED], maxSteps: Int): Graph[VertexId, ED] = { 
require(maxSteps > 0, s"Maximum of steps must be greater than 0, but got $ {maxSteps}") 


val lpaGraph = graph. mapVertices { case (vid, _) => vid) 
def sendMessage(e: EdgeTriplet[VertexId, ED]): Iterator[(VertexId, Map[VertexId, Long])] = { 
Iterator((e.srcId, Map(e.dstAttr 一 > 1L)), (e.dstId, Map(e.srcAttr 一 > 1L))) 
} 
def mergeMessage(count1: Map[VertexId, Long], count2: Map[VertexId, Long]) 
: Map[VertexId, Long] = { 
(count1. keySet ++count2.keySet).map ( i => 
val count1Val = countl.getOrElse(i, OL) 
val count2Val = count2.getOrElse(i, OL) 
i —» (count1Val + count2Val) 
}. toMap 
i 
def vertexProgram(vid: VertexId, attr: Long, message: Map[VertexId, Long]): VertexId = { 
if (message. isEmpty) attr else message.maxBy( . 2). 1 
ji 
val initialMessage = Map[VertexId, Long] () 
Pregel(lpaGraph, initialMessage, maxIterations = maxSteps)( 
vprog = vertexProgram, 
sendMsg = sendMessage, 
mergeMsg - mergeMessage) 
) 
) 


实质 上 ,本 步 中 唯一 存疑 的 问题 在 于 如 何 定义 复杂 连通 部 分 这 个 抽象 概念 ,也 就 是 对 于 
什么 样 的 连通 部 分 需要 进行 第 三 步 给 出 的 进一步 分 析 。 简 单 连通 部 分 很 好 识别 ,例如 最 简 
单 的 一 条 边 和 对 应 的 两 个 顶点 就 可 构成 一 个 简单 的 连通 部 分 。 但 复杂 连通 部 分 仅仅 从 顶点 
数目 和 边 的 数目 无 法 进行 准确 的 判断 。 

针对 该 问题 ,首先 可 以 尝试 通过 给 出 一 个 连通 部 分 的 更 多 信息 来 帮助 判断 。 例 如 连通 
部 分 中 顶点 的 度 最 高 是 多 少 , 如 果 该 数值 恰好 比 顶 点 数目 少 一 ,那么 无 论 项 点 之 间 如 何 连 
接 , 都 至 少 可 以 找到 一 个 顶点 , 它 和 其 他 顶点 之 间 都 相互 连接 ,也 就 是 说 该 项 点 代表 的 基因 
和 连通 部 分 中 其 余 基因 均 相 似 ,这 种 情况 下 ,显然 也 可 以 认为 这 个 连通 部 分 为 一 个 类 。 这 也 
是 之 前 对 图 进行 顶点 度 分 析 的 原因 。 同 时 这 种 方法 也 只 适应 部 分 情况 。 还 有 一 个 更 好 的 解 
决 方案 ,就 是 用 可 视 化 方法 直接 把 图 描绘 出 来 ,再 人 为 进行 判断 。 关 于 这 些 的 详细 内 容 , 本 
节 案 例 将 在 实验 结果 中 给 出 例子 说 明 。 

通过 上 述 三 个 步骤 ,完成 了 对 基因 图 分 析 和 聚 类 的 所 有 工作 ,最 后 ,给 出 整个 过 程 的 伪 
代码 描述 ,如 图 12-20 所 示 。 

具体 实现 代码 如 下 ,首先 使 用 connectedComponents 函数 计算 连通 部 分 得 到 CC. BOSE 
CC 进行 分 类 ,分 别 存在 不 同 的 文件 中 。 
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1: procedure GRAPHCLUSTERING(E) 

Class — Ø 

Construct a graph G from E. 

Compute the connected components(CCS) of G. 


for each CC in CCS do 


5 if CC is simple then 
T: Class UCC 

s else 

E ClassU LABELPROPAGATION(CC, marlter) 
10 end if 

11; end for 


12: return Class 
13: end procedure 


15: procedure LABELPROPAGATION(G, maxIter) 
16 ie0 

17: while į < mazIter and not conv 
IR 1. Vertices send label to neighbors. 
19 2. Vertices updata label. 

20: i++ 

2: end while 

22; return Collection of Vertices divided by label 
23: end procedure 


gence do 


图 12-20 ”基因 图 聚 类 流程 伪 代 码 


//CC. scala 
//Run Connected Components 
val CC = graph. connectedComponents( ). vertices. join(degrees).map(x => (x. 2. 1, (x. 1, 
x. 2. 2))).groupByKey().map { x => 
valccSize - x. 2.size 
val maxDegreeVertice: (VertexId, PartitionID) = x. 2.toSeq.sortWith( . 2» . 2) 
.head(x. 1, (ccSize, maxDegreeVertice, x. 2.map( . 1))) 
). cache() 
writer.write(s"The number of connected components: $ {CC. count()}\n") 
degrees.collect().sortBy( . 2).foreach ( case(index, degree) => 
writer.write(s" $ index $ degree\n") 
} 
writer. close() 
//Write results 
val writer2 = new PrintWriter(new File(params. out + "smallCC.txt")) 
writer2. write(s" # Id\tSize\tMaxDegreeVert iceId\tMaxDegree\ tMembers\n" ) 
(Stream from 1). zip(CC. filter(_._2._1<= 30).collect().sortBy(_._2._1)). foreach { 
case(index, (_, (ccSize, maxDegreeVertice, vertices))) => 
writer2.write(s" $ {params. clusterNamePrefix} $ index $ ccSize $ (maxDegreeVertice. 1} 
$ {maxDegreeVertice. 2}") 
vertices. foreach(v => writer2.write(s" $v")) 
writer2. write("\n") 
j 
writer2.close() 
val writer3 = new PrintWriter(new File(params.out + "bigCC.txt")) 
writer3.write(s" + Id V tSizeVtMaxDegreeVerticelId V tMaxDegree Vt Members Wn" ) 
(Stream from 1).zip(CC.filter( . 2. 1» 30).collect().sortBy(_._2._1)). foreach { 
case(index, ( , (ccSize, maxDegreeVertice, vertices))) => 
writer3.write(s" $ (params.clusterNamePrefix) $ index $ ccSize $ (maxDegreeVertice. 1] 
$ (maxDegreeVertice. 2)") 
vertices.foreach(v => writer3.write(s" $v")) 
writer3.write("\n") 
5 


writer3.close() 
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对 于 较 大 的 连通 部 分 ,本 节 案 例 使 用 标签 传播 算法 LabelPropagation 再 进行 聚 类 。 


//LP. scala 
val graph = Graph. fromEdges(edges, 1) 
println(graph. nunVertices) 
val labels: Graph[VertexId, PartitionID] = LabelPropagation. run(graph, 100).cache() 


12.4 环境 建立 和 实验 数据 说 明 


12.4.1 案例 环境 
本 节 案 例 在 华 大 基因 Spark 集群 上 完成 测试 和 性 能 评估 ,该 Spark 集群 由 1 个 Master 
节点 和 17 个 Worker 节点 组 成 ,测试 平台 中 Worker 节点 的 具体 物理 配置 以 及 相关 软件 版 
本 信息 在 表 12-1 中 给 出 ,还 有 一 些 和 Spark 集群 相关 的 配置 信息 主要 是 Scala 语言 版 本 和 
Spark 版 本 ,其 中 Scala 语言 55 的 版 本 为 2. 11 版 本 ,Spark 版 本 为 1. 5. 2。 
表 12-1 Hadoop 集群 计算 节点 物理 配置 及 软件 版 本 


内 容 具体 配置 内 容 具体 配置 
CPU Intel(R) Xeon(R) E5645 OS RedHat Enterprise Linux Server 
Cores 12 Jave Version 1.8 
Clock Frequency 2. 40GHz Hadoop Version | 2.6.3 
Memory 48GB 


12.4.2 实验 数据 


本 节 案 例 实验 采用 的 数据 来 自 于 华 大 基因 ,整个 基因 目录 的 丰 度 分 布 表 文 件 大 小 为 
1. 49GB, 数 据 集 共 包 括 2 082 408 个 基因 ,其 中 每 个 基因 由 一 个 index 和 一 个 370 维 向 量 构 
成 ,说 明 整 个 样本 数目 为 370。 虽然 得 到 的 基因 目录 的 丰 度 分 布 表 并 不 是 太 大 ,但 得 到 这 个 
数据 集 的 序列 文件 却 是 海量 的 。 如 前 文 所 述 ,一 个 样本 的 序列 文件 包含 两 个 Fastq 文件 ,每 
个 Fastq 文件 大 约 为 2.66GB, 因 此 ,得 到 这 个 表 所 需 的 序列 文件 大 小 为 : 2X2. 66 X370= 
1968. 4GB。 


12.5 结果 展示 


12.5.1 LSH 方法 精确 度 分 析 


如 前 文 所 述 ,直接 基于 Spark 解决 APSS 问题 时 , 既 不 会 产生 精确 度 的 损失 ,也 不 会 导 
致 错误 的 结果 产生 ,而 利用 LSH 方法 解决 APSS 问题 时 ,由 于 LSH 只 是 一 种 近似 方法 , 因 
此 该 方法 伴随 着 一 定 程 度 的 精度 损失 ,对 于 APSS 问题 来 说 就 是 有 相似 基因 对 未 找到 。 同 
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时 前 文 提 到 的 方法 中 对 候选 相似 基因 对 做 了 验证 ,因此 LSH 方法 也 不 存在 结果 中 有 非 相 
似 基 因 对 的 情况 , 即 不 会 产生 错误 结果 。 下 面 ,首先 给 出 问题 的 正确 结果 , 即 测 试 基准 ,再 对 
LSH 方法 的 精确 度 进行 评估 。 测 试 基准 如 表 12-2 所 示 。 


表 12-2 LSH 方法 测试 基准 


基因 数目 26114 53932 82210 110475 
index 范围 0—100K 0—200K 0—300K 0~400K 
所 有 基因 对 数目 340 957 441 1 454 303 346 3 379 200 945 6 102 307 575 
所 有 相似 基因 对 数目 361 345 1478 355 3 389 636 6 006 983 


表 中 给 出 的 是 一 定 index 范围 内 所 有 基因 对 以 及 所 有 相似 基因 对 的 情况 ,由 表 可 知 相 
似 基 因 对 大 约 占 所 有 基因 对 的 0. 1%% ,比例 非常 小 。 从 计算 量 角度 来 说 ,计算 1000 个 基因 
对 的 皮尔 逊 相关 系数 ,才能 找到 1 个 相似 基因 对 ,也 就 是 得 到 一 个 真正 的 计算 结果 ,效率 也 
很 低 。 比 例 低 的 同时 也 说 明了 有 加 速 的 必要 性 以 及 加 速 的 空间 很 大 ,下 面 就 具体 给 出 使 用 
LSH 加 速 计算 时 的 情况 。 

首先 给 出 在 基因 index 范围 为 0 一 100K 时 ,对 于 不 同 参数 取 值 , 即 不 同 2 值 和 A 值 ,得 
到 的 候选 相似 基因 对 和 相似 基因 对 的 情况 ,具体 情况 如 图 12-21 和 图 12-22 所 示 。 此 时 , 测 
试 基 准 对 应 于 表 12-2 中 第 一 列 ,基因 数目 为 26 114, 所 有 基因 对 的 数量 为 340 957 441, 所 有 
相似 基因 对 数量 为 361 345 。 
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18 


10 ama 
8 m: | 


0 5000000 10000000 15000000 20000000 25000000 30000000 35000000 40000000 


6 8 T0 2 [ Hu T6 Tg 20 

a1] 10628973 | 14015501 | 17402651 | 20936549 | 24254811 | 27108948 | 30199757 | 33430288 
2| 721848 | 1002716 | 1375333 | 1736477 | 2111839 | 2456302 | 2868131 | 3345787 
m3| 299710 | 406370 | 553615 | 666624 | 768755 | 861334 | 968777 | 1095203 
m4| 156693 | 238625 | 350101 | 430171 | 501942 | 562521 | 631107 | 709027 
ms| 69195 | 144130 | 229612 | 299601 | 361959 | 413715 | 468919 | 535628 


图 12-21 不 同 参数 情况 下 候选 相似 基因 对 数目 


图 12-21 和 图 12-22 中 表格 每 一 行 对 应 参数 k 的 值 相同 ,参数 5b 取 不 同 值 时 的 情况 ,每 
一 列 对 应 参数 2 的 值 相同 ,参数 & 取 不 同 值 时 的 情况 。 表 中 每 一 项 对 应 于 该 参数 下 候选 相 
似 基因 对 的 数值 ,在 保证 一 定 精 确 度 的 情况 下 ,该 数值 越 小 说 明 需 要 验证 的 基因 对 越 少 , 即 
计算 量 越 小 。 

由 图 12-21 和 图 12-22 可 以 看 出 , 当 & 值 相同 时 ,2 值 越 大 ,候选 相似 基因 对 越 多 ,过 滤 
效果 越 差 ,加 速效 果 也 越 差 。 当 & 一 1,0 一 20 时 ,候选 相似 基因 对 达到 33 439 288, 过滤 掉 
90.2% 的 基因 对 ,但 考虑 到 此 时 得 到 的 相似 基因 对 仅 有 361 327 ,仍然 只 占 候选 相似 基因 对 的 
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0 500000 1000000 1500000 2000000 
6 8 [ 1 Im [ n T6 Tg 20 
1| 351012 | 357466 | 359876 | 360781 | 361097 | 361211 | 361308 | 361327 
m2| 311264 | 335573 | 351241 | 357057 | 359285 | 360262 | 360781 | 361104 
m3| 235737 | 282443 | 325390 | 342480 | 351248 | 355360 | 357845 | 359834 
m4| 146889 | 210867 | 276305 | 309166 | 330050 | 341248 | 348535 | 355687 
m:| 68357 | 138958 | 210388 | 257459 | 292312 | 313674 | 327948 | 345058 


图 12-22 不 同 参数 情况 下 相似 基因 对 数目 


1.08%。 同 时 此 时 得 到 的 相似 基因 对 已 经 是 所 有 参数 中 最 多 的 , 即 精度 最 高 ,为 99. 995% 

4 b 值 相同 时 ,k 值 越 大 ,候选 相似 基因 对 越 少 ,过 滤 效 果 越 好 ,加 速效 果 也 越 好 。 当 
k=5,b=6 时 ,候选 相似 基因 对 仅仅 只 有 69 195 对 ,过 滤 掉 99. 98% 的 基因 对 ,同时 得 到 的 
相似 基因 对 为 68 357 对 , 占 候选 相似 基因 对 的 98.79%。 但 明显 这 组 参数 组 合 也 不 可 取 , 因 
为 得 到 的 结果 最 少 , 远 小 于 真实 结果 的 数量 , 即 此 时 精确 度 最 低 , 仅 为 18. 92%。 

综合 上 述 讨论 ,可 以 发 现 参数 的 选择 对 LSH 加 速 相 似 基 因 对 计算 的 实际 效果 (包括 精 
确 度 和 加 速 比 两 个 方面 ) 至 关 重 要 ,在 保证 一 定 精 度 的 情况 下 ,合理 选择 参数 ,可 以 减少 候选 
基因 对 的 数量 ,从 而 获得 更 高 的 加 速 比 。 假 设 我 们 的 精确 度 要 求 为 99% 以 上 , 则 结果 数量 
必须 大 于 357 731, 结 合 图 12-22 知 参数 组 合 (10,1)、(12,1)、(14,1)、(16,1)、(18,1)、(20，, 
1)、(14,2)、(16,2)、(18,2)、(20,2)、(18,3)、(20,3) 均 符合 要 求 ,再 结合 图 12-21 知 参 数组 
合 (18,3) 最 理想 ,此 时 候选 相似 基因 对 为 968 777 对 , 仅 占 所 有 基因 对 的 0.28%, 得 到 的 相 
似 基 因 对 为 357 845 对 , 占 候选 相似 基因 对 的 36. 94% ,大 约 每 10 个 候选 相似 基因 对 就 有 
A 个 是 相似 基因 对 , 相 比 未 过 滤 时 的 0.1% ,比例 提高 了 300 倍 以 上 。 


12.5.2 可 扩展 性 分 析 和 加 速效 果 分 析 


可 扩展 性 是 评价 基于 Spark 平台 开发 的 应 用 程序 的 一 项 重要 指标 。 对 于 Spark 平台 上 

的 应 用 程序 来 说 ,有 较 好 的 可 扩展 性 意味 着 可 以 通过 分 配 更 多 的 计算 资源 或 在 更 大 规模 的 

集群 上 运行 来 加 速 计算 。 本 节 案 例 仅 选取 图 12-18 所 示 算法 中 的 一 次 迭代 过 程 作为 测试 基 
准 。 具 体 测试 基准 如 表 12-3 所 示 。 此 外 ,参数 固定 为 6 二 20,k 二 3。 
表 12-3 可 扩展 性 测试 基准 ,基因 对 以 (x,y) 为 例 


基因 数目 1 9036 
x fy) index 范围 5000K 一 5100K 
y 的 index 范 围 二 5000K 
所 有 相似 基因 对 3 620 358 
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可 扩展 性 测试 结果 如 图 12-23 所 示 ,图 中 横 坐 标 为 使 用 集群 核 的 数量 , 纵 坐 标 表 示 纯 计 
算 部 分 运行 时 间 ( 对 于 使 用 LSH 加 速 时 , 仅 包 括 过 滤 基 因 对 和 验证 候选 相似 基因 对 的 时 
间 ,并 不 包括 计算 哈 希 值 的 时 间 ) 。 
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图 12-23 可 扩展 性 测试 结果 
由 可 扩展 性 测试 可 计算 加 速 比 (使 用 LSH 加 速 相对 不 使 用 LSH 的 方法 ) 的 情况 ,具体 


如 图 12-24 所 示 。 
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12-24 加 速 比 测试 结果 


由 图 12-24 可 以 看 出 ,在 不 同 核 数 情况 下 ,使 用 LSH 加 速 相 对 原 方法 有 5 一 14 倍加 速 
效果 。 这 个 结果 和 之 前 分 析 的 候选 基因 对 仅 占 整个 基因 对 的 0.28% 左 右 的 结果 有 和 较 大 出 
入 ,如 果 把 过 滤 过 程 忽略 不 计 , 理 论 上 通过 LSH 加 速 能 获得 几 百 倍 的 加 速 比 ,但 实际 却 只 
有 5-14 倍加 速 比 。 说 明 通 过 哈 希 值 找 出 所 有 候选 基因 对 这 一 步 占 了 LSH 加 速 计算 绝 大 
部 分 计算 时 间 。 这 也 侧面 反映 了 在 使 用 LSH 加 速 计算 的 方法 中 ,进行 喻 希 值 比较 的 实现 
必须 保证 是 轻 量 级 的 ,否则 有 可 能 导致 使 用 LSH 后 计算 时 间 反 而 增加 的 情况 。 另 外 ,参数 
b 和 参数 的 选择 显然 也 会 影响 哈 希 值 比较 的 时 间 , 从 而 影响 加 速 比 。 


Speedup 


457 


458 


云 计 算 与 大 数据 技术 理论 及 应 用 


12.5.3 基因 图 顶点 的 度 分 布 和 连通 性 分 析 


相似 基因 对 计算 给 出 了 所 有 相似 基因 对 的 结果 ,同时 筛选 掉 和 所 有 基因 均 不 相似 的 基 

因 , 即 顶点 度 为 0 的 基因 。 基 于 该 结果 生成 的 基因 图 共有 1 367 881 个 顶点 ,789 645 909 条 

边 , 由 此 可 计算 出 顶点 的 度 的 平均 值 为 1155, 这 个 数值 表明 每 个 基因 平均 和 1155 基因 相 

似 。 下 面 给 出 顶点 的 度 的 大 致 分 布 情况 ,如 图 12-25 所 示 。 图 中 系列 1 为 顶点 的 度 , 系 列 2 
为 对 应 的 基因 数目 。 
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图 12-25 基因 图 顶点 的 度 分 布 箱 线 图 


由 于 顶点 的 度 的 差距 较 大 ,下 面 给 出 一 些 具体 情况 : 顶点 的 度 最 小 值 为 1, 对 应 的 基因 

有 74726 个 ,顶点 的 度 最 大 值 为 16 044, 对 应 基因 数目 为 2。 由 于 顶点 的 度 的 跨度 以 及 度 较 

大 时 对 应 基因 很 少 ,因此 对 横 坐 标 顶 点 的 度 采用 对 数 坐 标 轴 , 得 到 的 基因 数目 随 顶 点 的 度 的 
分 布 图 如 图 12-26 所 示 。 
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图 12-26 ”基因 数目 随 顶点 的 度 的 分 布 


完成 对 顶点 的 度 的 分 析 后 , 接 下 来 给 出 图 的 连通 性 分 析 的 结果 : 通过 图 的 连通 性 分 析 
总 共 得 到 26931 个 连通 子 图 ,平均 每 个 连通 子 图 包含 顶点 数目 为 50.8。 连 通 子 图 最 少 包含 
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顶点 数目 为 2, 这 样 的 连通 子 图 共有 13 275 个 , 占 所 有 连通 子 图 的 49. 3%。 这 些 连通 子 图 
均 由 两 个 顶点 一 条 边 构 成 , 均 无 须 再 进行 聚 类 分 析 。 随 着 连通 子 图 顶点 数目 的 增加 ,相应 
连通 子 图 的 数目 整体 呈 下 降 趋势 。 当 连通 子 图 的 规模 达到 19 左右 时 ,连通 子 图 数目 降 为 
100 以 下 , 当 连 通 子 图 的 规模 达到 50 左右 时 ,连通 子 图 数目 降 为 10 以 下 , 当 连 通 子 图 规模 
在 100 以 上 时 ,大 部 分 都 只 对 应 1 或 2 个 连通 子 图 。 下 面 给 出 连通 子 图 规模 为 20 以 下 时 ， 
连通 子 图 数目 的 变化 情况 ,具体 如 图 12-27 Bros o 
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图 12-27 连通 子 图 数目 随 连 通 子 图 规模 变化 趋势 


另外 ,需要 注意 的 是 ,连通 性 分 析 得 到 的 一 个 最 大 连通 子 图 的 规模 为 1 155 275 , 占 整 个 
图 顶点 数目 的 84.5% ,而 次 大 连通 子 图 的 规模 仅 为 4363。 这 反映 了 连通 性 分 析 仅 仅 把 问题 
规模 减少 了 15 欠 左右, 进行 聚 类 分 析 面 对 图 的 规模 仍然 为 百 万 数量 级 。 但 考虑 连通 性 分 析 
实现 比较 简单 ,GraphX 提供 的 基本 操作 可 直接 进行 ,而 且 还 能 筛选 出 众多 小 规模 连通 子 
图 ,使 问题 简单 化 ,总 体 来 说 还 是 有 不 错 的 收益 ,因此 连通 性 分 析 作 为 聚 类 之 前 的 预 聚 类 过 
程 , 是 很 有 必要 且 切 实 可 行 的 。 


12.5.4 基因 图 聚 类 结果 分 析 


前 文 提 到 针对 结构 较为 复杂 的 连通 子 图 ,需要 进行 进一步 的 聚 类 分 析 。 而 问题 的 难点 
在 于 如 何 根据 得 到 的 连通 子 图 信息 来 判断 该 连通 子 图 是 否 复杂 。 本 小 节 通 过 给 出 几 个 具体 
连通 子 图 的 实例 来 说 明 判断 方法 ,并 给 出 一 些 复杂 子 图 的 聚 类 结果 。 首 先 , 给 出 一 个 简单 连 
通 子 图 的 例子 。 该 连通 子 图 的 示意 图 如 图 12-28 所 示 。 

该 图 共 包 含 14 个 顶点 ,85 条 边 。 之 所 以 认为 这 个 连通 子 图 为 简单 的 ,是 因为 该 子 图 存 
在 一 个 顶点 和 其 他 顶点 均 相 连 ,也 就 是 说 该 基因 与 所 有 其 他 基因 均 相 似 , 该 基因 index 为 
1 850 044。 也 说 明 整 个 子 图 可 以 以 index 为 1 850 044 的 基因 为 中 心 进行 聚 类 。 

接 下 来 再 给 出 一 个 复杂 连通 子 图 的 例子 。 该 连通 子 图 的 示意 图 如 图 12-29 所 示 。 虽 然 
该 子 图 仅 由 11 个 顶点 和 11 条 边 构 成 ,但 显然 不 能 认为 该 子 图 为 一 个 聚 类 结果 。 该 图 中 度 
数 最 大 的 顶点 仅 为 5, 小 于 顶点 总 数 的 一 半 。 由 此 可 知 ,判断 一 个 子 图 是 否 复杂 和 构成 图 的 
顶点 数 和 边 无 关 , 关 键 要 看 图 的 结构 。 而 给 出 子 图 顶点 度数 的 最 大 值 , 有 时 可 以 帮助 快速 判 
断 子 图 是 否 复杂 。 最 后 ,给 出 一 个 规模 较 大 的 子 图 ,该 图 由 30 个 顶点 和 78 条 边 组 成 ,具体 
如 图 12-30 所 示 。 
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12-30 ”规模 较 大 复杂 连通 子 图 示意 图 


显然 ,该 图 无 法 看 作 一 个 类 ,有 必要 对 该 图 进行 聚 类 分 析 。 具 体 聚 类 结果 如 图 12-31 所 
示 。 总 共生 成 9 个 聚 类 结果 ,其 中 一 个 聚 类 结果 包括 20 个 顶点 ,其 余 8 个 聚 类 结果 分 别 为 
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2 个 包含 2 个 顶点 的 结果 和 6 个 单独 一 个 顶点 的 结果 。 在 实际 中 ,20 个 顶点 的 结果 可 用 ,有 
较 好 的 生物 学 意义 ,其 余 均 可 视 为 无 效 结果 。 


图 12-31 标签 传播 算法 聚 类 结果 示意 图 


对 于 规模 更 大 的 子 图 ,顶点 和 边 的 数目 均 较 多 ,不 易 可 视 化 ,这 里 不 再 举例 说 明 。 但 运 
用 标签 传播 算法 对 其 进行 聚 类 是 切实 可 行 的 。 至 此 本 节 案 例 就 完成 了 宏基 因 组 基因 图 聚 类 
的 目标 , 仅 从 基因 的 相似 性 角度 找 出 了 可 能 来 自 同一 物种 的 基因 ,具体 生物 学 意义 可 以 利用 
相关 分 析 工 具 进 行进 一 步 分 析 , 这 里 不 再 详细 说 明 。 


12.5.5 总 结 


综 上 所 述 ,宏基 因 组 基因 聚 类 问题 是 目前 宏基 因 组 学 研究 最 广泛 也 是 最 难 解决 的 问题 
之 一 ,具有 很 好 的 研究 意义 与 应 用 价值 。 本 案例 在 了 解 原 有 聚 类 方法 不 足 的 基础 上 ,创造 性 
提出 将 宏基 因 组 聚 类 问题 划分 为 相似 基因 对 计算 和 宏基 因 组 基因 图 聚 类 两 个 子 问题 。 针 对 
相似 基因 对 计算 问题 提出 了 针对 海量 数据 下 基于 Spark 平台 的 解决 方法 ,并 在 保证 一 定 精 
确 度 的 前 提 下 ,利用 局 部 敏感 哈 希 方法 对 相似 基因 对 计算 过 程 进 行 加 速 。 经 过 验证 ,该 方 
法 可 以 有 效 解决 问题 ,利用 局 部 敏感 哈 希 可 以 在 保证 精确 度 大 于 99% 的 情况 下 ,使 原 有 
解决 方案 获得 5 一 14 倍加 速 比 ,同时 两 种 解决 方案 均 具有 较 好 的 可 扩展 性 。 之 后 在 完成 
相似 基因 对 计算 的 基础 上 ,本 案例 构造 出 了 宏基 因 组 百 万 基因 图 ,并 使 用 并 行 图 计算 框 
架 Spark GraphX 完成 了 对 图 的 连通 性 分 析 和 聚 类 分 析 , 最 后 利用 可 视 化 工具 给 出 了 连通 
性 分 析 和 聚 类 分 析 的 一 些 结果 。 总 体 来 说 ,本 案例 基于 图 的 聚 类 方法 和 使 用 GraphX 完 
成 百 万 数量 级 图 的 聚 类 工作 ,而 之 前 的 MGS 聚 类 方法 面 对 海 量 基 因数 据 时 ,会 不 可 避免 
地 受 一 些 “ 噪 音 基 因 的 影响 导致 计算 效率 低下 ,计算 时 间 过 长 。 因 此 ,在 面 对 海 量 数 据 
时 ,如何 避 开 无 价值 的 数据 ,找到 有 价格 的 结果 是 非常 值得 研究 的 生物 医药 大 数据 相关 
课题 之 一 。 
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习题 


1. 宏基 因 组 聚 类 方法 属于 有 监督 学 习 还 是 无 监督 学 习 ? 它 的 核心 思想 是 什么 ? 

无 监督 学 习 ; 宏基 因 组 聚 类 方法 的 核心 思想 在 于 假设 不 存在 任何 已 知 的 参考 基因 组 ， 
仅仅 根据 测序 所 得 序列 自身 蕴含 的 信息 ,运用 机 器 学 习 或 统计 的 方法 ,将 相似 的 测序 序列 聚 
成 一 类 ,使 得 最 终 得 到 的 分 类 结果 中 每 一 类 的 种 内 距离 最 小 ,而 种 间距 离 最 大 。 

2. 简 述 局 部 敏感 哈 希 算法 的 原理 。 

取 多 个 喻 希 函 数 , 相 对 于 不 相似 的 数据 对 象 而 言 ,这 些 函 数 以 更 高 的 概率 将 相似 的 数据 
对 象 映射 到 相同 的 哈 希 桶 中 。 也 就 是 说 ,将 原始 数据 空间 中 的 两 个 相 邻 数 据点 通过 相同 的 
映射 或 投影 变换 后 ,这 两 个 数据 点 在 新 的 数据 空间 中 仍然 相 邻 的 概率 很 大 ,而 不 相 邻 的 数据 
点 被 映射 到 同一 个 桶 的 概率 很 小 。 

3. 什么 是 APSS 问题 ? 

给 定 m HEISE V= (evo eos) 、 相 似 度 函数 sim(Cz,y) 和 相似 度 阔 值 ,我 们 希望 计 
算 所 有 对 集 (z,y) 并 且 对 于 任意 rsy EV simt, y) >t. 

4. 本 童 案例 如 何 使 用 局 部 敏感 哈 希 技术 加 速 相似 基因 对 算法 ? 
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